CN110852602A - 基于机器学习的数据监控方法及装置 - Google Patents
基于机器学习的数据监控方法及装置 Download PDFInfo
- Publication number
- CN110852602A CN110852602A CN201911083734.XA CN201911083734A CN110852602A CN 110852602 A CN110852602 A CN 110852602A CN 201911083734 A CN201911083734 A CN 201911083734A CN 110852602 A CN110852602 A CN 110852602A
- Authority
- CN
- China
- Prior art keywords
- classification model
- target classification
- score
- data
- monitoring result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Technology Law (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供一种基于机器学习的数据监控方法及装置,方法包括:根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果;本申请能够准确监控目标分类模型在实际应用时的异常变化,提升目标分类模型在实际应用时的准确性和可靠性。
Description
技术领域
本申请涉及数据监控领域,具体涉及一种基于机器学习的数据监控方法及装置。
背景技术
随着大数据和人工智能的发展,机器学习模型是基于过去的数据来预测未来。机器学习技术在金融风控、营销领域广泛的应用,需要“高质量的数据+审慎严谨的决策模型+实时全面的监控分析”动态闭环,动态闭环能够“动态”起来,需要最后一个步骤“监控”把关,全面、细致的分析、评估决策效果,使决策体系不断进化。
对于金融风控领域,通过运用大量的历史样例数据对二分类评分模型进行训练,训练生成评分模型,如信用评分模型。模型是服务于业务的,业务中需要对线上的客户进行信用评分预测,使用客户的进件数据通过调用训练好的模型给出评分预测结果。但随着外部环境变化,如市场波动、整体经济形势的变化、行业政策的变化(新法律法规),都会影响模型的预期结果。因此,需要一套有效的模型监控系统来对上线模型进行监测,前端监控是在使用模型前要知道模型能不能用,需要定期验证模型的适用性,当异常情况出现时要进行适当维护,确保模型能有效的识别客户信用风险,长期使用的模型,其中的特征变量一定不能波动性较大,当偏移指标数据变化大时,是进件整体数据的变化,如数据缺失、异常,还是某个入模特征的变化,是需要进行模型迭代,还是不做改变;后端监控是业务方通过模型给客户进行了授信评分,对比经过一段时间的客户表现期过后的真实标签来确认模型是否预测准确及分析特征变量的有效性。
现有市面上大部分机器学习建模平台中大多是只提供的建模工具功能,或提供模型服务,即将训练好的模型以模型文件封装成接口的方式提供给甲方公司,缺失模型上线后的监控动态闭环。
另外,对于某些平台也仅通过接口调用的形式监测一个评分的稳定性PSI指标。这并不能深度分析模型变化的原因,如监控指标说明模型稳定性指标有变化时,是不是需要查看特征相关指标,整体趋势的观察、细节统计值的观察,得出一份准确度高的监控报告,并进行后续详细的策略改善。
发明内容
针对现有技术中的问题,本申请提供一种基于机器学习的数据监控方法及装置,能够准确监控目标分类模型在实际应用时的异常变化,提升目标分类模型在实际应用时的准确性和可靠性。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种基于机器学习的数据监控方法,包括:
根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;
根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;
当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果。
进一步地,在所述确定所述目标分类模型的特征分布稳定性监控结果之后,还包括:
根据新增预测数据对应的预测结果和表现期过后的真实结果,确定该目标分类模型的评分正确性监控结果。
进一步地,在所述确定所述目标分类模型的特征分布稳定性监控结果之后,还包括:
根据预设特征变量在所述目标分类模型中的原始训练数据占比和新增预测数据占比,确定所述目标分类模型的特征变量有效性监控结果。
进一步地,还包括:
根据所述目标分类模型的评分分布稳定性监控结果、特征分布稳定性监控结果、评分正确性监控结果以及特征变量有效性监控结果中的至少一项与对应的预设阈值的对比结果,向对应的管理员终端发送告警信息。
第二方面,本申请提供一种基于机器学习的数据监控装置,包括:
时间评分对应关系确定模块,用于根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;
评分分布稳定性监控模块,用于根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;
特征分布稳定性监控模块,用于当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果。
进一步地,还包括:
评分正确性监控模块,用于根据新增预测数据对应的预测结果和表现期过后的真实结果,确定该目标分类模型的评分正确性监控结果。
进一步地,还包括:
特征变量有效性监控模块,用于根据预设特征变量在所述目标分类模型中的原始训练数据占比和新增预测数据占比,确定所述目标分类模型的特征变量有效性监控结果。
进一步地,还包括:
告警模块,用于根据所述目标分类模型的评分分布稳定性监控结果、特征分布稳定性监控结果、评分正确性监控结果以及特征变量有效性监控结果中的至少一项与对应的预设阈值的对比结果,向对应的管理员终端发送告警信息。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于机器学习的数据监控方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于机器学习的数据监控方法的步骤。
由上述技术方案可知,本申请提供一种基于机器学习的数据监控方法及装置,通过根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果,本申请能够准确监控目标分类模型在实际应用时的异常变化,提升目标分类模型在实际应用时的准确性和可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的基于机器学习的数据监控方法的流程示意图;
图2为本申请实施例中的基于机器学习的数据监控装置的结构图。
图3为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有市面上大部分机器学习建模平台中大多是只提供的建模工具功能,或提供模型服务,即将训练好的模型以模型文件封装成接口的方式提供给甲方公司,缺失模型上线后的监控动态闭环的问题,本申请提供一种基于机器学习的数据监控方法及装置,通过根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果,本申请能够准确监控目标分类模型在实际应用时的异常变化,提升目标分类模型在实际应用时的准确性和可靠性。
为了能够准确监控目标分类模型在实际应用时的异常变化,提升目标分类模型在实际应用时的准确性和可靠性,本申请提供一种基于机器学习的数据监控方法的实施例,参见图1,所述基于机器学习的数据监控方法具体包含有如下内容:
步骤S101:根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系。
可以理解的是,评分分布稳定性描述总评分的稳定性,评分分布目的在于监控固定时期每一个分数段的核准率,稳定性分析目的在于衡量两段时间申请客户的客层变化。监控系统生成一个能够代表总体的分值分布随时间变化的指数PSI,这种情况出现的原因在于评分模型开发时使用的是历史数据,而新进客户的数据调用评分模型得出的评分是客户的当前行为,比较当前行为和历史行为的差异,一般来说,差异的产生可能在于:
(1)客户群体发生变化,新客户进入,老客户流失;
(2)市场发生变化,如经济周期、宏观环境变化;
(3)行业发生变化,如新的法律法规、政策的出现;
PSI指数越大说明新近客户评分和训练数据的评分分布差异越大,反之越小。
步骤S102:根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果。
可以理解的是,为保证评分模型能被正确的使用,需要监测评分分布稳定性。PSI的值为判断评分稳定性的指标,PSI值是模型打分偏移情况的评估,对于新上线的模型,把上线前几天的打分作为参照分布。
PSI即群体稳定性指标(population stability index),
公式为:psi=sum((训练占比-新进占比)/ln(训练占比/新进占比))
举个例子解释下,比如训练一个评分模型,每条训练样本和预测时候每个客户数据会有打一个分。训练模型是将打分设置为N个区间,求出训练数据每个区间的样本占比和新进数据每个区间的占比,代入公式后生成PSI值。
步骤S103:当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果。
可以理解的是,当上述步骤中评分分布稳定性PSI指标不稳定时,需要进行特征分析。当评分稳定性较差时,一定是某些或全部特征变量的分布出现了异常,因此需要进行特征分布稳定性监控,以了解是哪些变量的分布差异导致了总评分稳定性差异。比较特征变量在训练数据和新进预测数据中分布的占比,当差异很大时,新近客户的分布变化较大,同时计算每类数据或每个区间数据的PSI稳定性指标,计算方式同评分稳定性的PSI指标。
从上述描述可知,本申请实施例提供的基于机器学习的数据监控方法,能够通过根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果,本申请能够准确监控目标分类模型在实际应用时的异常变化,提升目标分类模型在实际应用时的准确性和可靠性。
为了能够确定目标分类模型的正确性,在本申请的基于机器学习的数据监控方法的一实施例中,还具体包含有如下内容:
根据新增预测数据对应的预测结果和表现期过后的真实结果,确定该目标分类模型的评分正确性监控结果。
可以理解的是,在前端监控的同时,模型对好坏客户的预测正确情况是后段监控的主要行为。通过对新进数据的预测结果和表现期过后的真实结果生成最新的或定期生成的模型评估指标来作为评价该模型每个时间段的评分正确性,如KS、AUC。通常这些监控指标的生成时间较长,因为预测完的客户新近数据,需要等待获取客户过了表现期之后的真实好坏标签结果生成计算。
为了能够确定特征分布的稳定性,在本申请的基于机器学习的数据监控方法的一实施例中,还具体包含有如下内容:
根据预设特征变量在所述目标分类模型中的原始训练数据占比和新增预测数据占比,确定所述目标分类模型的特征变量有效性监控结果。
可以理解的是,当上述中评分正确性出现问题、评分分布异常时,还需要关注具体哪些变量的正确性出现了问题,这就涉及到对模型特征变量的有效性分析。变量有效性分析是通过分析某个特征变量在建模的数据情况和在新近客户数据的情况作对比。
为了能够对异常进行及时告警,在本申请的基于机器学习的数据监控方法的一实施例中,还具体包含有如下内容:
根据所述目标分类模型的评分分布稳定性监控结果、特征分布稳定性监控结果、评分正确性监控结果以及特征变量有效性监控结果中的至少一项与对应的预设阈值的对比结果,向对应的管理员终端发送告警信息。
为了能够准确监控目标分类模型在实际应用时的异常变化,提升目标分类模型在实际应用时的准确性和可靠性,本申请提供一种用于实现所述基于机器学习的数据监控方法的全部或部分内容的基于机器学习的数据监控装置的实施例,参见图2,所述基于机器学习的数据监控装置具体包含有如下内容:
时间评分对应关系确定模块10,用于根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系。
评分分布稳定性监控模块20,用于根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果。
特征分布稳定性监控模块30,用于当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果。
从上述描述可知,本申请实施例提供的基于机器学习的数据监控装置,能够通过根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果,本申请能够准确监控目标分类模型在实际应用时的异常变化,提升目标分类模型在实际应用时的准确性和可靠性。
为了能够确定目标分类模型的正确性,在本申请的基于机器学习的数据监控装置的一实施例中,还具体包含有如下内容:
评分正确性监控模块40,用于根据新增预测数据对应的预测结果和表现期过后的真实结果,确定该目标分类模型的评分正确性监控结果。
为了能够确定特征变量的有效性,在本申请的基于机器学习的数据监控装置的一实施例中,还具体包含有如下内容:
特征变量有效性监控模块50,用于根据预设特征变量在所述目标分类模型中的原始训练数据占比和新增预测数据占比,确定所述目标分类模型的特征变量有效性监控结果。
为了能够对异常进行及时告警,在本申请的基于机器学习的数据监控装置的一实施例中,还具体包含有如下内容:
告警模块60,用于根据所述目标分类模型的评分分布稳定性监控结果、特征分布稳定性监控结果、评分正确性监控结果以及特征变量有效性监控结果中的至少一项与对应的预设阈值的对比结果,向对应的管理员终端发送告警信息。
为了更进一步说明本方案,本申请还提供一种应用上述基于机器学习的数据监控装置实现基于机器学习的数据监控方法的具体应用实例,具体包含有如下内容:
一、【前端监控系统】的监控指标如下
1.评分分布稳定性指标监控
评分分布稳定性描述总评分的稳定性,评分分布目的在于监控固定时期每一个分数段的核准率,稳定性分析目的在于衡量两段时间申请客户的客层变化。监控系统生成一个能够代表总体的分值分布随时间变化的指数PSI,这种情况出现的原因在于评分模型开发时使用的是历史数据,而新进客户的数据调用评分模型得出的评分是客户的当前行为,比较当前行为和历史行为的差异,一般来说,差异的产生可能在于:
(1)客户群体发生变化,新客户进入,老客户流失;
(2)市场发生变化,如经济周期、宏观环境变化;
(3)行业发生变化,如新的法律法规、政策的出现;
为保证评分模型能被正确的使用,需要监测评分分布稳定性。PSI的值为判断评分稳定性的指标,PSI值是模型打分偏移情况的评估,对于新上线的模型,把上线前几天的打分作为参照分布。
PSI即群体稳定性指标(population stability index),
公式为:psi=sum((训练占比-新进占比)/ln(训练占比/新进占比))
举例,比如训练一个评分模型模型,每条训练样本和预测时候每个客户数据会有打一个分。训练模型是将打分设置为N个区间,求出训练数据每个区间的样本占比和新进数据每个区间的占比,代入公式后生成PSI值。
PSI指数越大说明新近客户评分和训练数据的评分分布差异越大,反之越小。
2.评分PSI随时间的变化图
目的在于了解PSI指标的趋势变化,选取一个时间段,设置步长时点,将每个时点的PSI通过折线图观察趋势变化。
3.特征分布稳定性分析
当上述1中评分分布稳定性PSI指标不稳定时,需要进行特征分析。
当评分稳定性较差时,一定是某些或全部特征变量的分布出现了异常,因此需要进行特征分布稳定性监控,以了解是哪些变量的分布差异导致了总评分稳定性差异。比较特征变量在训练数据和新近数据中分布的占比,当差异很大时,新近客户的分布变化较大,同时计算每类数据或每个区间数据的PSI稳定性指标,计算方式同评分稳定性的PSI指标。
4.评分值字段统计指标&特征字段统计指标
利用统计学方式统计训练数据和新近数据的情况作为对比指标,具体指标如下:
(1)实际评分次数:即有多少条进件客户数据调用该模型被正常打出分;
(2)调用模型的次数:即有多少条进件客户数据调用了模型;
(3)评分值字段平均值、方差、最小值、最大值、十分位数:即统计计算评分值字段的平均值、方差、最小值、最大值、十分位数。
(4)特征字段的平均值、方差、最小值、最大值、十分位数:即统计计算每个特征变量字段字段的平均值、方差、最小值、最大值、十分位数。
5.其他BI统计图表
(1)评分覆盖率随时间的变化,即打出分的数据条数除以数据总条数;
(2)评分区间的数据占比随时间的变化,每个区间的数据条数除以总条数;
(3)特征字段区间占比随时间的变化,每个区间的数据条数除以总条数;
(4)评分字段的平均值、方差、最小值、最大值、十分位数随时间的变化;
(5)特征字段的平均值、方差、最小值、最大值、十分位数随时间的变化;
二、【后端监控系统】的监控指标如下
1.评分的正确性指标
在前端监控的同时,模型对好坏客户的预测正确情况是后段监控的主要行为。通过对新进数据的预测结果和表现期过后的真实结果生成最新的或定期生成的模型评估指标来作为评价该模型每个时间段的评分正确性,如KS、AUC。
通常这些监控指标的生成时间较长,因为预测完的客户新近数据,需要等待获取客户过了表现期之后的真实好坏标签结果生成计算。
2.特征变量的有效性指标
当上述中评分正确性出现问题、评分分布异常时,还需要关注具体哪些变量的正确性出现了问题,这就涉及到对模型特征变量的有效性分析。
变量有效性分析是通过分析某个特征变量在建模的数据情况和在新近客户数据的情况作对比。
由上述描述可知,本申请至少还可以实现如下技术效果:
为机器学习二分类模型上线后的决策提供了完整的监控管理方案。这是一套补充模型策略和迭代的闭环方案。二分类模型在金融风控领域运用广泛,利用模型监控系统可对业务场景进行有效的精细化的风险控制,有效地提升业务运营效率。
一套精准的风控策略方案模型,面对不可抗拒的市场的趋势,政策的变化时通过模型监控系统可感知到这些变化的存在,降低业务风险。
结合业务需要,对于早期预警,通过前端监控系统了解核准率及不良率的变动是否来自于客群的变动、通过模型的PSI指标可判断模型的稳定情况。通常PSI的指标依据为:
(1)PSI小于0.1时,说明新近客户评分和训练数据的评分差异小,不用采取措施;
(2)在0.1-0.25之间,说明有一定的差异,需要注意检查其他模型监控指标后具体问题具体分析;
(3)大于0.25时,说明差异较大,改变已经发生,要进行特征分析;
当模型PSI指标异常时,可能是模型本身不稳定引起,若是高分段总数量没变,而psi值变动较大,认为需要重训模型。若是psi值没变,高分段总数量变多,认为整体用户变好。
模型分数的变化也可能由特征变化引起,监控的特征的分布情况,通过对比训练和新进数据,可以了解到客群稳定性及偏离分布的原因。
特征的PSI指标的意义是,如果一个特征字段的来源是一个模型的子模型评分作为一个特征入模,通过这个指标判断子模型的稳定性情况。
PSI随时间变化的趋势图,可以整体性的评估一段时间内的趋势,对比市场影响、政策影响、结合特征稳定性分析的客群影响,更精细化的为下一步的策略做准备。
统计评分值字段的评分次数、调用评分的次数对比训练数据和新近数据。调用次数和评分次数可以观察到模型的是否正常的打出分的情况,并结合方案描述5(1)中的评分覆盖率变化趋势观察一个时间段内的模型的正常的打分情况。
统计评分值字段平均值、方差、最小值、最大值、十分位数以及分值的细节变化,高低分值的偏移情况,并结合方案描述5(4)中的统计值随时间的变化,观察每个时间节点的统计变化。
特征变量字段的平均值、方差、最小值、最大值、十分位数对比训练数据和新近数据,可以观察到特征字段的细节变化,客户细节偏移情况。并结合方案描述5(5)中的统计值随时间的变化,观察每个时间节点的统计变化。
结合业务需要,通过后端监控系统,对模型的评分正确性指标作分析和特征有效性的分析,可观察模型对申请客户的信用风险识别能力。对于评分正确性分析指标的KS指标判断模型好坏区分能力时:
KS在0.2以下的,模型无判断能力;
KS在0.2-0.4之间的,模型勉强能接受;
KS在0.51-0.6之间的,模型有很好的区分能力;
KS在0.61-0.7之间的,模型有很好的区分能力;
对于变量有效性分析可以找出具体哪些变量出了问题导致的评分正确性出现问题。
本申请的实施例还提供能够实现上述实施例中的基于机器学习的数据监控方法中全部步骤的一种电子设备的具体实施方式,参见图3,所述电子设备具体包括如下内容:
处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604;
其中,所述处理器601、存储器602、通信接口603通过所述总线604完成相互间的通信;所述通信接口603用于实现基于机器学习的数据监控装置、在线业务系统、客户端设备以及其他参与机构之间的信息传输;
所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的基于机器学习的数据监控方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系。
步骤S102:根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果。
步骤S103:当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果。
从上述描述可知,本申请实施例提供的电子设备,能够通过根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果,本申请能够准确监控目标分类模型在实际应用时的异常变化,提升目标分类模型在实际应用时的准确性和可靠性。
本申请的实施例还提供能够实现上述实施例中的基于机器学习的数据监控方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于机器学习的数据监控方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系。
步骤S102:根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果。
步骤S103:当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够通过根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果,本申请能够准确监控目标分类模型在实际应用时的异常变化,提升目标分类模型在实际应用时的准确性和可靠性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (10)
1.一种基于机器学习的数据监控方法,其特征在于,所述方法包括:
根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;
根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;
当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果。
2.根据权利要求1所述的基于机器学习的数据监控方法,其特征在于,在所述确定所述目标分类模型的特征分布稳定性监控结果之后,还包括:
根据新增预测数据对应的预测结果和表现期过后的真实结果,确定该目标分类模型的评分正确性监控结果。
3.根据权利要求2所述的基于机器学习的数据监控方法,其特征在于,在所述确定所述目标分类模型的特征分布稳定性监控结果之后,还包括:
根据预设特征变量在所述目标分类模型中的原始训练数据占比和新增预测数据占比,确定所述目标分类模型的特征变量有效性监控结果。
4.根据权利要求3所述的基于机器学习的数据监控方法,其特征在于,还包括:
根据所述目标分类模型的评分分布稳定性监控结果、特征分布稳定性监控结果、评分正确性监控结果以及特征变量有效性监控结果中的至少一项与对应的预设阈值的对比结果,向对应的管理员终端发送告警信息。
5.一种基于机器学习的数据监控装置,其特征在于,包括:
时间评分对应关系确定模块,用于根据目标分类模型在设定时间周期内对应各分类评分分数段的核准率信息,确定该目标分类模型的评分分值与时间的对应关系;
评分分布稳定性监控模块,用于根据所述目标分类模型的评分分值与时间的对应关系与所述设定时间周期内原始训练数据与新增预测数据的比值,确定所述目标分类模型的评分分布稳定性监控结果;
特征分布稳定性监控模块,用于当监测到所述目标分类模型的评分分布稳定性监控结果符合异常分布条件时,根据预设特征变量在原始训练数据和新增预测数据中的分布占比,确定所述目标分类模型的特征分布稳定性监控结果。
6.根据权利要求5所述的基于机器学习的数据监控装置,其特征在于,还包括:
评分正确性监控模块,用于根据新增预测数据对应的预测结果和表现期过后的真实结果,确定该目标分类模型的评分正确性监控结果。
7.根据权利要求6所述的基于机器学习的数据监控装置,其特征在于,还包括:
特征变量有效性监控模块,用于根据预设特征变量在所述目标分类模型中的原始训练数据占比和新增预测数据占比,确定所述目标分类模型的特征变量有效性监控结果。
8.根据权利要求7所述的基于机器学习的数据监控装置,其特征在于,还包括:
告警模块,用于根据所述目标分类模型的评分分布稳定性监控结果、特征分布稳定性监控结果、评分正确性监控结果以及特征变量有效性监控结果中的至少一项与对应的预设阈值的对比结果,向对应的管理员终端发送告警信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的基于机器学习的数据监控方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的基于机器学习的数据监控方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911083734.XA CN110852602A (zh) | 2019-11-07 | 2019-11-07 | 基于机器学习的数据监控方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911083734.XA CN110852602A (zh) | 2019-11-07 | 2019-11-07 | 基于机器学习的数据监控方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852602A true CN110852602A (zh) | 2020-02-28 |
Family
ID=69599919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911083734.XA Pending CN110852602A (zh) | 2019-11-07 | 2019-11-07 | 基于机器学习的数据监控方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852602A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753963A (zh) * | 2020-06-28 | 2020-10-09 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备及存储介质 |
CN112528300A (zh) * | 2020-12-09 | 2021-03-19 | 深圳市天彦通信股份有限公司 | 访客信用评分方法、电子设备及相关产品 |
CN114036018A (zh) * | 2021-10-26 | 2022-02-11 | 江苏苏宁银行股份有限公司 | 一种机器学习模型的监控方法及设备 |
CN117633489A (zh) * | 2023-12-13 | 2024-03-01 | 智车信安(苏州)信息安全科技有限公司 | 一种基于ai的车辆安全分析方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130191106A1 (en) * | 2012-01-24 | 2013-07-25 | Emerson Process Management Power & Water Solutions, Inc. | Method and apparatus for deploying industrial plant simulators using cloud computing technologies |
JP2017021502A (ja) * | 2015-07-09 | 2017-01-26 | 株式会社日立ハイテクノロジーズ | 稼働データ分類装置 |
CN108764290A (zh) * | 2018-04-26 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 模型异动的原因确定方法及装置和电子设备 |
CN109242135A (zh) * | 2018-07-16 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 一种模型运营方法、装置、及业务服务器 |
CN109636243A (zh) * | 2019-01-03 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 模型故障检测方法、装置、计算机设备以及存储介质 |
CN110262939A (zh) * | 2019-05-14 | 2019-09-20 | 苏宁金融服务(上海)有限公司 | 算法模型运行监控方法、装置、计算机设备和存储介质 |
-
2019
- 2019-11-07 CN CN201911083734.XA patent/CN110852602A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130191106A1 (en) * | 2012-01-24 | 2013-07-25 | Emerson Process Management Power & Water Solutions, Inc. | Method and apparatus for deploying industrial plant simulators using cloud computing technologies |
JP2017021502A (ja) * | 2015-07-09 | 2017-01-26 | 株式会社日立ハイテクノロジーズ | 稼働データ分類装置 |
CN108764290A (zh) * | 2018-04-26 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 模型异动的原因确定方法及装置和电子设备 |
CN109242135A (zh) * | 2018-07-16 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 一种模型运营方法、装置、及业务服务器 |
CN109636243A (zh) * | 2019-01-03 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 模型故障检测方法、装置、计算机设备以及存储介质 |
CN110262939A (zh) * | 2019-05-14 | 2019-09-20 | 苏宁金融服务(上海)有限公司 | 算法模型运行监控方法、装置、计算机设备和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753963A (zh) * | 2020-06-28 | 2020-10-09 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备及存储介质 |
CN111753963B (zh) * | 2020-06-28 | 2024-04-02 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备及存储介质 |
CN112528300A (zh) * | 2020-12-09 | 2021-03-19 | 深圳市天彦通信股份有限公司 | 访客信用评分方法、电子设备及相关产品 |
CN112528300B (zh) * | 2020-12-09 | 2024-05-17 | 深圳市天彦通信股份有限公司 | 访客信用评分方法、电子设备及相关产品 |
CN114036018A (zh) * | 2021-10-26 | 2022-02-11 | 江苏苏宁银行股份有限公司 | 一种机器学习模型的监控方法及设备 |
CN117633489A (zh) * | 2023-12-13 | 2024-03-01 | 智车信安(苏州)信息安全科技有限公司 | 一种基于ai的车辆安全分析方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852602A (zh) | 基于机器学习的数据监控方法及装置 | |
US11132624B2 (en) | Model integration method and device | |
US11902114B2 (en) | System and method for predicting and reducing subscriber churn | |
CN109242135B (zh) | 一种模型运营方法、装置、及业务服务器 | |
US20150310336A1 (en) | Predicting customer churn in a telecommunications network environment | |
CN111539811B (zh) | 风险账户的识别方法及装置 | |
US20190325451A1 (en) | Information security system with risk assessment based on multi-level aggregations of risk predictors | |
CN109003091A (zh) | 一种风险防控处理方法、装置及设备 | |
CN113837596A (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
CN110502895A (zh) | 接口异常调用确定方法及装置 | |
CN111222994A (zh) | 客户风险评估方法、装置、介质和电子设备 | |
CN112036762B (zh) | 行为事件的识别方法和装置、电子设备和存储介质 | |
Wasim et al. | Law as a service (LaaS): Enabling legal protection over a blockchain network | |
Patil et al. | Customer churn prediction for retail business | |
CN112101939A (zh) | 基于区块链的节点管理方法及系统 | |
CN116777633A (zh) | 基于数据管理的金融资产管理系统 | |
CN108228879A (zh) | 一种数据更新方法、存储介质和智能设备 | |
CN114997975A (zh) | 一种异常企业识别方法、装置、设备、介质及产品 | |
CN110942314A (zh) | 异常账户监管方法及装置 | |
Bonafede et al. | Statistical models for business continuity management | |
CN114676422A (zh) | 资源访问的异常检测方法、装置及设备 | |
CN111815442A (zh) | 一种链接预测的方法、装置和电子设备 | |
CN112685610A (zh) | 虚假注册账号识别方法及相关装置 | |
CN112433939A (zh) | 智能合约的测试方法、装置 | |
Oladipo et al. | Customer Churn Prediction in Telecommunications Using Ensemble Technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |