CN113011596A - 一种模型自动更新方法、装置、系统及电子设备 - Google Patents
一种模型自动更新方法、装置、系统及电子设备 Download PDFInfo
- Publication number
- CN113011596A CN113011596A CN202110193968.0A CN202110193968A CN113011596A CN 113011596 A CN113011596 A CN 113011596A CN 202110193968 A CN202110193968 A CN 202110193968A CN 113011596 A CN113011596 A CN 113011596A
- Authority
- CN
- China
- Prior art keywords
- model
- candidate feature
- candidate
- initial
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种模型自动更新方法、装置、系统及电子设备,该方法包括:基于第一预定时间段内的第一时序数据的多个初始特征,构建初始模型;判断所构建的初始模型的模型评价指标是否满足预定要求;如果初始模型的模型评价指标满足预定要求,则获取第二预定时间段内的第二时序数据;确定所获取的第二时序数据的多个更新特征;基于多个更新特征对初始模型进行更新。通过采用上述模型自动更新方法、装置、系统及电子设备,解决了在时间跨度较长的情况下,因特征分布发生变化而导致模型预测准确度降低的问题。
Description
技术领域
本申请涉及大数据技术领域,尤其是涉及一种模型自动更新方法、装置、系统及电子设备。
背景技术
随着大数据技术的不断发展,机器学习模型已经被广泛应用于各行业中。全面了解数据的概况以及探查各个变量的特征是构建机器学习模型的重要环节,在机器学习任务中特征的选取通常决定了模型效果的上限,好的特征选择,不仅能够防止维度灾难、减少训练时间,更能够增强模型泛化能力,减少过拟合。因此,优化特征变量的选择对构建机器学习模型具有重要的意义。在很多业务场景中,由于机器学习模型所使用的数据量有限,因此通常需要选取时间跨度在两年以上的数据。然而随着时间的推移,新的样本数据与构建模型时所使用的样本数据相比发生了较大的变化,这导致了模型预测效果会逐渐变差,因此需要定期更新模型。现有技术中,通常采用将新选取的样本数据直接输入到模型的方式更新模型。
上述现有的模型更新方法中,更新后的模型仍采用构建模型时所使用的特征变量,但构建模型时所使用的特征变量已不适用于新的样本数据,这就导致了更新后的模型预测结果不准确的问题。
发明内容
有鉴于此,本申请提供一种模型自动更新方法、装置、系统及电子设备,其目的是为在对模型进行更新时,选取适用于新样本数据的特征变量,避免了因特征变量不适用于新样本数据,而导致更新后的模型预测结果不准确的问题。
第一方面,本申请实施例提供了一种模型自动更新方法,包括:
基于第一预定时间段内的第一时序数据的多个初始特征,构建初始模型;
判断所构建的初始模型的模型评价指标是否满足预定要求;
如果初始模型的模型评价指标满足预定要求,则获取第二预定时间段内的第二时序数据;
确定所获取的第二时序数据的多个更新特征;
基于多个更新特征对初始模型进行更新。
可选地,确定所获取的第二时序数据的多个更新特征,可包括:(A)确定第二预定时间段内的多个预设时间点;(B)针对每个预设时间点,确定与该预设时间点对应的样本集,其中,样本集包括将第二时序数据按照该预设时间点划分所得到的处于该预设时间点之前的训练数据和处于该预设时间点之后的测试数据;(C)确定第二时序数据的多个候选特征组,每个候选特征组中包括至少一个候选特征;(D)针对每个候选特征组,利用所确定的样本集构建针对该候选特征的多个分类器;(E)针对每个候选特征组,确定该候选特征组在每个分类器下的特征评估指标;(F)基于所确定的特征评估指标,从多个候选特征组中确定出多个更新特征。
可选地,基于所确定的特征评估指标,从多个候选特征组中确定出多个更新特征,可包括:(F1)针对每个候选特征组,确定该候选特征组在每个分类器下的特征评估指标的统计值;(F2)基于全部的候选特征组对应的统计值,从全部的候选特征组中选择出目标候选特征组;(F3)确定目标候选特征组中的候选特征的数量是否达到预定数值;(F4)如果目标候选特征组中的候选特征的数量没有达到预定数值,则基于目标候选特征组中的候选特征构建新候选特征组,用所构建的新候选特征组更新候选特征组,并返回执行步骤(D);(F5)如果目标候选特征组中的候选特征的数量达到预定数值,则将目标候选特征组中的候选特征确定为多个更新特征。
可选地,新候选特征组可包括多个新候选特征组,每个新候选特征组可包括目标候选特征组中的候选特征以及一个其他候选特征,其他候选特征为第二时序数据的多个候选特征中除目标候选特征组中的候选特征之外的特征。
可选地,模型评价指标包括模型稳定度指标和模型预测效果指标,其中,判断所构建的初始模型的模型评价指标是否满足预定要求,可包括:判断初始模型的模型稳定度指标是否大于第一设定阈值,并判断初始模型的模型预测效果指标是否小于第二设定阈值;如果初始模型的模型稳定度指标大于第一设定阈值,和/或,初始模型的模型预测效果指标小于第二设定阈值,则确定初始模型的模型评价指标满足预定要求;如果初始模型的模型稳定度指标不大于第一设定阈值,且初始模型的模型预测效果指标不小于第二设定阈值,则确定初始模型的模型评价指标不满足预定要求。
第二方面,本申请实施例提供了一种模型自动更新装置,包括:
构建模块,基于第一预定时间段内的第一时序数据的多个初始特征,构建初始模型;
判断模块,判断所构建的初始模型的模型评价指标是否满足预定要求;
获取模块,如果初始模型的模型评价指标满足预定要求,则获取第二预定时间段内的第二时序数据;
确定模块,确定所获取的第二时序数据的多个更新特征;
更新模块,基于多个更新特征对初始模型进行更新。
可选地,确定模块可通过以下方式确定所述多个更新特征:确定第二预定时间段内的多个预设时间点;针对每个预设时间点,确定与该预设时间点对应的样本集,其中,样本集包括将第二时序数据按照该预设时间点划分所得到的处于该预设时间点之前的训练数据和处于该预设时间点之后的测试数据;确定第二时序数据的多个候选特征组,每个候选特征组中包括至少一个候选特征;针对每个候选特征组,利用所确定的样本集构建针对该候选特征的多个分类器;针对每个候选特征组,确定该候选特征组在每个分类器下的特征评估指标;基于所确定的特征评估指标,从多个候选特征组中确定出多个更新特征。
第三方面,本申请实施例提供了一种模型自动更新系统,包括:后台管理服务器、远程服务器;
后台管理服务器从远程服务器中获取第一预定时间段内的第一时序数据,基于所获取的第一时序数据的多个初始特征,构建初始模型;
后台管理服务器判断所构建的初始模型的模型评价指标是否满足预定要求,如果所述初始模型的模型评价指标满足所述预定要求,则从远程服务器中获取第二预定时间段内的第二时序数据;
后台管理服务器确定所获取的第二时序数据的多个更新特征,并基于所述多个更新特征对初始模型进行更新。
第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述的模型自动更新方法的步骤。
第五方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述的模型自动更新方法的步骤。
本申请实施例带来了以下有益效果:
本申请实施例提供了一种模型自动更新方法,包括:基于第一预定时间段内的第一时序数据的多个初始特征,构建初始模型;判断所构建的初始模型的模型评价指标是否满足预定要求;如果初始模型的模型评价指标满足预定要求,则获取第二预定时间段内的第二时序数据;确定所获取的第二时序数据的多个更新特征;基于多个更新特征对初始模型进行更新。本申请中在对模型进行更新时选取适用于新样本数据的特征变量,避免了因特征变量不适用于新样本数据,而导致更新后的模型预测结果不准确的问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,以下附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的模型自动更新方法的流程示意图。
图2为本申请实施例提供的确定多个更新特征的步骤的流程示意图;
图3为本申请实施例提供的模型自动更新装置的结构示意图;
图4为本申请实施例提供的模型自动更新系统的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中,通常采用将新选取的样本数据直接输入到模型中的方式更新模型。上述现有的模型更新方法中,更新后的模型仍采用初始构建模型时所使用的特征变量,随着时间的推移,这些特征变量已不适用于新的样本数据,如果仍基于这些特征变量进行模型更新,将会导致更新后的模型预测结果不准确。例如,在研究保险机构退保率的模型中,由于某机构前期经营的不规范而造成了退保率较高,那么此时选取“机构”这个变量作为重要特征是合适的。但该机构经过一段时间的整改后退保率已明显降低,如果此时仍将“机构”这个变量作为重要特征,那么这些重要特征与新样本数据是不匹配的,就会导致更新后的模型预测结果不准确的问题。
基于此,本申请实施例提供一种模型自动更新方法、装置、系统及电子设备,在对模型进行更新时选取适用于新样本数据的特征变量,避免了因特征变量不适用于新样本数据,而导致更新后的模型预测结果不准确的问题。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种模型自动更新方法进行详细介绍,图1为本申请实施例提供的模型自动更新方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤101,基于第一预定时间段内的第一时序数据的多个初始特征,构建初始模型。
具体的,第一预定时间段可以是从全部原始数据所对应的时间范围中选取的一段时间区间,将该选取的时间区间所对应的原始数据作为第一时序数据。在一示例中,第一预定时间段可指位于当前时间之前的、且与当前时间相邻的一个时间区间,例如,最近6个月,此时,第一时序数据可指最近6个月的时序数据。
在该步骤中,可从多个数据拥有方来获取第一时序数据,多个数据拥有方可包括但不限于以下至少一项:互联网公司、电子商务公司、快递公司、银行、保险机构。作为示例,第一时序数据可包括但不限于以下至少一项:用户在互联网上的上网行为数据(如,网址浏览记录、搜索记录)、用户在电子商务平台上的电子交易数据(如,订单数据、商品浏览信息、支付数据)、用户的快递物流数据、用户在银行的业务处理数据、用户的保单数据。
这里,时序数据可指时间序列数据,即,按时间顺序记录的数据列。随着时间的推移,时序数据不断地在发生变化,相应地,时序数据的特征也在发生变化,这就导致在经过一段时间之后,新时序数据与原时序数据存在较大差异,各自对应的特征也存在着差异,因此,需要对基于多个初始特征所构建的初始模型来进行更新,以确保模型的预测效果。
构建初始模型可包括以下步骤:数据预处理、特征选择、模型训练、模型部署。
数据预处理可包含以下步骤:数据整合、目标变量标注、特征变量衍生和数据清洗。其中,数据整合需要将不同数据源的数据进行收集、整合;目标变量标注和特征变量的衍生是对整合好的原始数据进行加工,可包含对原始数据进行转换、聚合等操作以实现特征数据抽取;数据清洗可包括对原始数据进行去重、缺失值补充处理、异常值删除处理。
此外,可通过对第一时序数据进行特征抽取,来确定出第一时序数据的多个初始特征。
在本申请实施例中,特征选择可采用如下述步骤104中所使用的特征获取方法,也就是说,可以利用与确定第二时序数据的多个更新特征相同的特征获取方式,来确定第一时序数据的多个初始特征。具体的特征获取过程将在后续的步骤104中进行阐述,本发明对此不再赘述。此外,本申请不限于此,步骤101中还可以采用其他特征抽取方式来确定第一时序数据的多个初始特征。
模型训练可包括划分训练集和测试集、模型选择。其中,划分训练集和测试集可采用按时间维度划分训练集和测试集的实验评估方法;可供选择的模型包括但不限于逻辑回归模型、LightGBM模型、决策树模型、GDBT模型、神经网络模型,本领域技术人员可以根据实际需求来确定所选择的模型,本申请对此不做限定。
模型部署包括但不限于将模型导出为指定格式的文件、将模型文件部署至管理平台、对模型版本进行管理。
在本申请中,在构建好初始模型之后,可将该初始模型放入测试环境(如Bate环境)中基于测试集进行测试,测试通过之后,可将该初始模型上线到生产环境正式运行,测试环境可与生产环境隔离。
在一示例中,假设第一时序数据为用户的保单数据,初始模型为用于预测用户续保率(也即加保率)的模型,第一预定时间段为T-24月至T月共24个月,T月指当前时间对应的月份,则该24个月所对应的原始数据即为第一时序数据。在上述业务场景下,第一时序数据可包括保单数据、用户行为数据、理赔数据、投诉数据,目标变量(即初始模型的输出)可包括将某时间点之前购买过保单且之后又购买其他保单的客户标记为是,将该时间点之前购买过保单而至今没有购买其他保单的客户标记为否,多个初始特征可包括历史购买过的保单数量、历史购买过的总保费。
以上述示例为例,可按如下方法划分训练集和测试集。从第一时序数据中,选取T月至T-3月期间内三个月的数据作为初始模型的测试集,用以评估初始模型的预测效果,从第一时序数据中,选取T-24月至T-3月期间内二十一个月的数据作为模型的训练集,用以构建初始模型。
在一实施例中,假设,初始模型选择的是LightGBM模型,则模型部署的过程可以是,先将该模型导出为json格式,将其解析成规则和模型文件一起放置到自动部署的管理平台中,同时将开发的多个初始特征存入到数据库中。将待预测的样本以json格式传入到自动部署的管理平台,运行模型便可返回预测结果。
步骤102,判断所构建的初始模型的模型评价指标是否满足预定要求。
例如,可在初始模型上线到生产环境运行之后,以预定时间间隔周期性地执行上述判断。例如,可将模型监测周期的时长确定为预定时间间隔的时长,当初始模型的上线运行时间达到模型监测周期的时长时,确定该初始模型的模型评价指标,并判断初始模型的模型评价指标是否满足预定要求。当初始模型的上线运行时间未达到模型监测周期的时长时,不执行步骤102。这里,本领域技术人员可以依据经验来设置模型监测周期的时长,此外,还可以根据对模型的更新需求来调整模型监测周期的时长,例如,如果对模型预测精度要求较高,可缩短模型监测周期的时长,如果对模型预测精度要求较低,可延长模型监测周期的时长。
在该步骤中,可以获取模型监测周期内的时序数据,并利用所获取的时序数据来确定初始模型的模型评价指标。这里,模型监测周期内的时序数据的产生方与第一时序数据的产生方相同,例如,以第一时序数据为不同用户在第一预定时间段内的上网行为数据为例,则模型监测周期内的时序数据可指不同用户在模型监测周期内产生的上网行为数据。
具体的,模型部署完成后可对模型进行监测,用以作为是否更新模型的判断依据。其中,可通过模型评价指标对监测结果进行评估,模型评价指标可包括模型稳定度指标和模型预测效果指标。在一示例中,判断初始模型的模型稳定度指标是否大于第一设定阈值,并判断初始模型的模型预测效果指标是否小于第二设定阈值。这里,可以依据经验或者其他方式来设置第一设定阈值、第二设定阈值的大小。
如果初始模型的模型稳定度指标大于第一设定阈值,和/或,初始模型的模型预测效果指标小于第二设定阈值,则确定初始模型的模型评价指标满足预定要求;如果初始模型的模型稳定度指标不大于第一设定阈值,且初始模型的模型预测效果指标不小于第二设定阈值,则确定初始模型的模型评价指标不满足预定要求。其中,第一设定阈值和第二设定阈值可以根据业务场景、指标类型或者经验来设置。
本申请实施例中,模型稳定度指标可包括但不限于PSI(population stabilityindex);模型预测效果指标可包括但不限于准确率、精准率、召回率。本领域技术人员可以根据实际需求来选择合适的评价指标,本申请对此不做限定。
在一具体示例中,模型稳定度指标的监测是以训练集数据对应的预测结果为基础,比对模型稳定度监测周期内测试集数据对应的预测结果,当PSI值大于第一设定阈值(如25%)时,表明预测的分数(如保单购买可能性大小分值)或者特征的分布发生显著变化,则更新模型。模型预测效果指标的监测是在模型效果监测周期结束后,将预测样本打上标签,计算模型效果指标精准率,如果精准率低于第一设定阈值(如70%),则更新模型。其中,模型稳定度监测周期和模型效果监测周期均为根据经验预设的时间区间,比如3个月,模型稳定度监测周期与模型效果监测周期可以取相同的时间区间,也可以取不同的时间区间。上述模型稳定度指标和模型预测效果指标中有一个指标满足预定要求,则视为模型评价指标满足预定要求,以对初始模型进行更新;模型稳定度指标和模型效果指标各自均不满足预定要求时,则视为模型评价指标不满足预定要求,则无需对初始模型进行更新。
如果初始模型的模型评价指标不满足预定要求,则无需对初始模型进行更新,此时返回执行步骤102,仍基于第一预定时间段内的第一时序数据继续对初始模型进行判断。这里,以第一预定时间段为最近6个月为例,随着时间推移该第一预定时间段对应的第一时序数据也在不断更新,在确定初始模型的模型评价指标不满足预定要求时,利用更新后的第一时序数据继续进行判断。
如果初始模型的模型评价指标满足预定要求,则执行步骤103:获取第二预定时间段内的第二时序数据。
步骤103,如果初始模型的模型评价指标满足预定要求,则获取第二预定时间段内的第二时序数据。
具体的,第二预定时间段可为预设的时间区间,其时间区间的长度可与第一预定时间段相同,也可以与第一预定时间段不同,第二预定时间段与第一预定时间段可以完全不重合,也可以部分重合。在一示例中,第二预定时间段可指位于当前时间之前的、且与当前时间相邻的一个时间区间。应理解,这里的当前时间指的是确定初始模型的模型评价指标满足预定要求的时刻,而步骤101中的当前时间指的是构建初始模型的时刻。
在一示例中,针对第二预定时间段与第一预定时间段部分重合的情况,第二预定时间段可由两部分时间段组成,分别是模型监测周期时间段及重合时间段。其中,模型监测周期是上述步骤102中根据经验确定的模型监测周期,重合时间段是第一预定时间段与第二预定时间段重合的时间段。将模型监测周期时间段和重合时间段各自对应的数据按时间先后次序组合起来后组成的数据,确定为第二时序数据。
以上述步骤102中的示例为例,假设模型监测周期为3个月,第一预定时间段为T-24月至T月,第二预定时间段的时长为24个月,则第二预定时间段包括的模型监测周期时间段为T月至T+3月,重合时间段为T-21月至T月。将时间段T-21月至T+3月对应的数据确定为第二时序数据。
步骤104,确定所获取的第二时序数据的多个更新特征。
图2为本申请实施例提供的确定多个更新特征步骤的流程示意图,在执行步骤104时,如图2所示,具体包括以下步骤:
步骤201,确定第二预定时间段内的多个预设时间点。
具体的,在第二预定时间段内取多个预设时间点,针对每个预设时间点,可以按照该预设时间点将第二预定时间段分割为两个时间区间,多个预设时间点对应多个被分割为两个时间区间的第二预定时间段。
在上述示例中,假设,预设时间点数量为4个,在上述步骤103中T-21月至T+3月时间段中,预设时间点分别为T-6月、T-4月、T-2月、T月,则可形成4个具有不同分割点的第二预定时间段,分别为由【T-21月,T-6月】和【T-6月,T+3月】两个时间区间组成的第二预定时间段;由【T-21月,T-4月】和【T-4月,T+3月】两个时间区间组成的第二预定时间段;由【T-21月,T-2月】和【T-2月,T+3月】两个时间区间组成的第二预定时间段;由【T-21月,T月】和【T月,T+3月】两个时间区间组成的第二预定时间段。
步骤202,针对每个预设时间点,确定与该预设时间点对应的样本集。
具体的,针对每个预设时间点,按照该预设时间点将第二时序数据划分成处于该预设时间点之前的训练数据和处于该预设时间点之后的测试数据,样本集则由该训练数据和该测试数据组成。也就是说,按照该预设时间点将第二预定时间段分割为两个时间区间之后,将处于该预设时间点之前的时间区间对应的第二时序数据确定为训练数据,将处于该预设时间点之后的时间区间对应的第二时序数据确定为测试数据。由于每个预设时间点在第二预定时间段内的位置不同,因此将获得多个不同的训练数据与测试数据的组合。
以上述步骤201的示例为例,可确定如下4组不同的样本集:样本集1包括【T-21月,T-6月】时间段对应的训练数据和【T-6月,T+3月】时间段对应的测试数据;样本集2包括【T-21月,T-4月】时间段对应的训练数据和【T-4月,T+3月】时间段对应的测试数据;样本集3包括【T-21月,T-2月】时间段对应的训练数据和【T-2月,T+3月】时间段对应的测试数据;样本集4包括【T-21月,T月】时间段对应的训练数据和【T月,T+3月】时间段对应的测试数据。
步骤203,确定第二时序数据的多个候选特征组。这里,每个候选特征组中可包括至少一个候选特征。
具体的,确定第二时序数据之后,可以从第二时序数据中确定多个候选特征组。这里,可以利用各种特征抽取方式来确定第二时序数据对应的多个候选特征,利用特征抽取获得的候选特征来形成多个候选特征组。应理解,可以利用各种组合方式来对通过特征抽取获得的各候选特征进行组合来获得候选特征组,在一优选示例中,可将每个候选特征作为一个候选特征组,即,一个候选特征组中包含一个候选特征。
以上述示例为例,假设针对第二时序数据确定了10个候选特征,可将所确定的10个候选特征中的每个候选特征均独自组成1个候选特征组,即,共组成10个候选特征组,分别为候选特征组1至候选特征组10。
步骤204,针对每个候选特征组,利用所确定的样本集构建针对该候选特征的多个分类器。
具体的,针对每个候选特征组,利用所确定的样本集采用初始模型的构建方法构建多个分类器,所构建的多个分类器与初始模型可以为相同类型的模型,例如,均为GDBT模型。但本申请不限于此,也可以通过其他方式来构建多个分类器,所构建的分类器的类型与初始模型的类型也可以不同。这里,各分类器的模型参数是不同的,且针对各分类器的样本集也是不同的。
以上述步骤102中的示例为例,可以针对每个候选特征组,利用全部4个样本集,来构造4个LightGBM分类器。也就是说,一个候选特征组对应多个分类器,一个样本集用于训练针对该候选特征组的一个分类器。
步骤205,针对每个候选特征组,确定该候选特征组在每个分类器下的特征评估指标。
具体的,针对每个候选特征组,可将该候选特征组中的候选特征分别代入到各分类器中,计算该候选特征组在每个分类器下的特征评估指标。作为示例,该特征评估指标可以是AUC值,应理解,本领域技术人员可以根据实际需求来选择合适的评价指标,本申请对此不做限定。
以上述步骤203中的示例为例,假设第二时序数据对应的候选特征组为候选特征组1至候选特征组10,且候选特征组1包含候选特征1、候选特征组2包含候选特征2、依次类推。针对每个候选特征组,将该候选特征组分别代入4个分类器中,将得到该候选特征组对应的4个特征评估指标值,将这4个特征评估指标值组成一个评估指标组,共可获得与10个候选特征组对应的10个评估指标组。
在此之后,可以基于所确定的特征评估指标,从多个候选特征组中确定出多个更新特征。
具体的,步骤206,针对每个候选特征组,确定该候选特征组在每个分类器下的特征评估指标的统计值。
作为示例,针对每个候选特征组,该候选特征组对应的特征评估指标的统计值可以取上述步骤205中与该候选特征组对应的评价指标组中的各特征评估指标的平均值、中间值、最大值或者最小值,本领域技术人员可以根据实际需要进行选择,本申请在此不做限定。
在本示例中,假设,针对每个候选特征组,选取平均值作为该候选特征组对应的特征评估指标的统计值,例如,候选特征组1至候选特征组10对应的10个统计值分别为0.65、0.3、0.7、0.56、0.68、0.28、0.15、0.25、0.43、0.33。
步骤207,基于全部的候选特征组对应的统计值,从全部的候选特征组中选择出目标候选特征组。
在一示例中,可以将统计值最大的候选特征组确定为目标候选特征组。
例如,针对每个候选特征组,还可以根据该候选特征组的特征评估指标的统计值,确定该候选特征组的选取优先级,根据多个候选特征组的选取优先级,从全部的候选特征组中选择优先级最高的候选特征组,将该优先级最高的候选特征组确定为目标候选特征组。在一示例中,候选特征组的选取优先级可与该候选特征组的特征评估指标的统计值呈正相关,也就是说,候选特征组的特征评估指标的统计值越大,则候选特征组的选取优先级越高,候选特征组的特征评估指标的统计值越小,则候选特征的选取优先级越低。
以上述步骤206中的示例为例,在上述10个统计值中,候选特征组3对应的统计值为0.7,是最高的,因此可以将候选特征组3确定为目标候选特征组。
步骤208,确定目标候选特征组中的候选特征的数量是否达到预定数值。
具体的,判断目标候选特征组中的候选特征的数量是否达到预定数值,此预定数值是预先设定好的阈值,这里,可以依据本领域技术人员的经验来确定预定数值的大小,或者也可以将初始特征的数量确定为预定数值的大小,本发明对此不做限定。
如果确定目标候选特征组中的候选特征的数量没有达到预定数值(如,目标候选特征组中的候选特征的数量小于预定数值),则执行步骤209,如果确定目标候选特征组中的候选特征的数量达到预定数值(如,目标候选特征组中的候选特征的数量大于或者等于预定数值),则执行步骤210。
以上述示例为例,假设预定数值为5,若目标候选特征组中的候选特征的数量为1,没有达到预定数值,则执行步骤209,若目标候选特征组中的候选特征的数量为5,达到了预定数值,则执行步骤210。
步骤209,基于目标候选特征组中的候选特征构建新候选特征组,用所构建的新候选特征组更新候选特征组,并返回执行步骤204。
此时,在步骤204中,针对更新后的每个候选特征组,利用所确定的样本集构建针对该候选特征的多个分类器,并继续执行后续步骤。
这里,新候选特征组可包括多个新候选特征组,每个新候选特征组包括目标候选特征组中的候选特征以及一个其他候选特征,其中,其他候选特征为第二时序数据的多个候选特征中除目标候选特征组中的候选特征之外的特征。
例如,可以通过以下方式来构建新候选特征组:将第二时序数据的多个候选特征中除目标特征组中的候选特征之外的其他候选特征中的每个其他候选特征分别与目标特征组中的候选特征进行组合,得到多个新候选特征组。也就是说,每个新候选特征组中的候选特征的数量均比目标候选特征组中的候选特征的数量多一个。利用新候选特征组对候选特征组进行更新,并返回执行步骤204,以对更新后的候选特征组进行处理。
以上述示例为例,假设,共10个候选特征组,其中,候选特征组1包含候选特征1、候选特征组2包含候选特征2,以此类推;目标候选特征组为候选特征组3,其包含候选特征3。构建的新候选特征组包括新候选特征组1至新候选特征组9。其中,候选特征3与候选特征1组成新候选特征组1、候选特征3与候选特征2组成新候选特征组2、候选特征3与候选特征4组成新候选特征组3,依此类推,从而确定出9个新候选特征组;用这9个新候选特征组对原候选特征组进行更新,得到更新后的候选特征组1至候选特征组9。
步骤210,将目标候选特征组中的候选特征确定为多个更新特征。
具体的,如果目标候选特征组中的候选特征的数量达到预定数值,则将目标候选特征组中的候选特征确定为多个更新特征。由于每当目标候选特征组中的候选特征的数量未达到预定数值时,均会将新的候选特征加入到目标候选特征组中得到新候选特征组,因此目标候选特征组中的候选特征数量是不断增加的。当目标候选特征组中的候选特征的数量达到预定数值时,不再返回执行步骤204,并将目标候选特征组中的全部候选特征确定为更新特征。
以上述示例为例,假设预定数值为5,则当目标候选特征组中的候选特征数量达到5个时,将目标候选特征组中的5个候选特征确定为更新特征。
返回图1,步骤105,基于多个更新特征对初始模型进行更新。
具体的,针对第二时序数据进行数据预处理,并将上述所选取的多个更新特征加入到初始模型中,并依据初始模型的模型训练、模型选择、模型部署的过程重新训练模型。
也就是说,对初始模型进行更新时所使用的多个更新特征与对初始模型进行训练时所用于的多个初始特征是不同的,即,在对初始模型进行更新时,获取了新的数据,并重新进行了特征的选取,使得更新后的初始模型所使用的更新特征更适用于新的数据,以提高模型的预测准确性。
本申请实施例提供了一种模型自动更新方法,基于第一预定时间段内的第一时序数据的多个初始特征,构建初始模型;判断所构建的初始模型的模型评价指标是否满足预定要求;如果初始模型的模型评价指标满足预定要求,则获取第二预定时间段内的第二时序数据;确定所获取的第二时序数据的多个更新特征;基于多个更新特征对初始模型进行更新。通过采用上述模型自动更新方法,解决了在时间跨度较长的情况下,因特征分布发生变化而导致模型预测准确度降低的问题。
基于同一发明构思,本申请实施例中还提供了与图1所示的模型自动更新方法对应的模型自动更新装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述模型自动更新方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图3为本申请实施例提供的模型自动更新装置的结构示意图,如图3所示,该装置包括以下模块:
构建模块301,基于第一预定时间段内的第一时序数据的多个初始特征,构建初始模型;
判断模块302,判断所构建的初始模型的模型评价指标是否满足预定要求;
获取模块303,如果初始模型的模型评价指标满足预定要求,则获取第二预定时间段内的第二时序数据;
确定模块304,确定所获取的第二时序数据的多个更新特征;
更新模块305,基于多个更新特征对初始模型进行更新。
作为示例,模型评价指标可包括模型稳定度指标和模型预测效果指标,在此情况下,判断模块302可判断初始模型的模型稳定度指标是否大于第一设定阈值,并判断初始模型的模型预测效果指标是否小于第二设定阈值;如果初始模型的模型稳定度指标大于第一设定阈值,和/或,初始模型的模型预测效果指标小于第二设定阈值,则判断模块确定初始模型的模型评价指标满足预定要求;如果初始模型的模型稳定度指标不大于第一设定阈值,且初始模型的模型预测效果指标不小于第二设定阈值,则判断模块确定初始模型的模型评价指标不满足预定要求。
一种可能的实施方式中,确定模块304可通过以下方式确定多个更新特征:确定第二预定时间段内的多个预设时间点;针对每个预设时间点,确定与该预设时间点对应的样本集,其中,样本集包括将第二时序数据按照该预设时间点划分所得到的处于该预设时间点之前的训练数据和处于该预设时间点之后的测试数据;确定第二时序数据的多个候选特征组,每个候选特征组中包括至少一个候选特征;针对每个候选特征组,利用所确定的样本集构建针对该候选特征的多个分类器;针对每个候选特征组,确定该候选特征组在每个分类器下的特征评估指标;基于所确定的特征评估指标,从多个候选特征组中确定出多个更新特征。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本申请实施例还提供了一种模型自动更新系统,图4为本申请实施例提供的模型自动更新系统的结构示意图,如图4所示,该系统包括:
后台管理服务器402用于从远程服务器401中获取第一预定时间段内的第一时序数据,基于所获取的第一时序数据的多个初始特征,构建初始模型。
后台管理服务器402判断所构建的初始模型的模型评价指标是否满足预定要求,如果初始模型的模型评价指标满足所述预定要求,则从远程服务器401中获取第二预定时间段内的第二时序数据。
后台管理服务器402确定所获取的第二时序数据的多个更新特征,并基于多个更新特征对初始模型进行更新。
远程服务器401,用于存储模型更新文件,模型更新文件包括基本配置文件和模型算法文件。
客户端管理平台403,用于调整各类预设的参数数值以及向后台管理服务器发送业务请求信息,以查看返回的演算结果。
对应于图1中的模型自动更新方法,本申请实施例还提供了一种电子设备500的结构示意图,如图5所示,所述电子设备500包括处理器510、存储器520和总线530。所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,能够执行上述模型自动更新方法,在对模型进行更新时选取适用于新样本数据的特征变量,避免了因特征变量不适用于新样本数据,而导致更新后的模型预测结果不准确的问题。
对应于图1中的模型自动更新方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述模型自动更新方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述模型自动更新方法,在对模型进行更新时选取适用于新样本数据的特征变量,避免了因特征变量不适用于新样本数据,而导致更新后的模型预测结果不准确的问题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种模型自动更新方法,其特征在于,包括:
基于第一预定时间段内的第一时序数据的多个初始特征,构建初始模型;
判断所构建的初始模型的模型评价指标是否满足预定要求;
如果所述初始模型的模型评价指标满足所述预定要求,则获取第二预定时间段内的第二时序数据;
确定所获取的第二时序数据的多个更新特征;
基于所述多个更新特征对初始模型进行更新。
2.如权利要求1所述的方法,其特征在于,确定所获取的第二时序数据的多个更新特征,包括:
(A)确定第二预定时间段内的多个预设时间点;
(B)针对每个预设时间点,确定与该预设时间点对应的样本集,其中,样本集包括将第二时序数据按照该预设时间点划分所得到的处于该预设时间点之前的训练数据和处于该预设时间点之后的测试数据;
(C)确定第二时序数据的多个候选特征组,每个候选特征组中包括至少一个候选特征;
(D)针对每个候选特征组,利用所确定的样本集构建针对该候选特征的多个分类器;
(E)针对每个候选特征组,确定该候选特征组在每个分类器下的特征评估指标;
(F)基于所确定的特征评估指标,从多个候选特征组中确定出多个更新特征。
3.如权利要求2所述的方法,其特征在于,基于所确定的特征评估指标,从多个候选特征组中确定出多个更新特征,包括:
(F1)针对每个候选特征组,确定该候选特征组在每个分类器下的特征评估指标的统计值;
(F2)基于全部的候选特征组对应的统计值,从全部的候选特征组中选择出目标候选特征组;
(F3)确定目标候选特征组中的候选特征的数量是否达到预定数值;
(F4)如果目标候选特征组中的候选特征的数量没有达到预定数值,则基于目标候选特征组中的候选特征构建新候选特征组,用所构建的新候选特征组更新候选特征组,并返回执行步骤(D);
(F5)如果目标候选特征组中的候选特征的数量达到预定数值,则将目标候选特征组中的候选特征确定为所述多个更新特征。
4.如权利要求3所述的方法,其特征在于,所述新候选特征组包括多个新候选特征组,每个新候选特征组包括目标候选特征组中的候选特征以及一个其他候选特征,所述其他候选特征为第二时序数据的多个候选特征中除目标候选特征组中的候选特征之外的特征。
5.如权利要求1所述的方法,其特征在于,所述模型评价指标包括模型稳定度指标和模型预测效果指标,
其中,判断所构建的初始模型的模型评价指标是否满足预定要求,包括:
判断初始模型的模型稳定度指标是否大于第一设定阈值,并判断初始模型的模型预测效果指标是否小于第二设定阈值;
如果初始模型的模型稳定度指标大于第一设定阈值,和/或,初始模型的模型预测效果指标小于第二设定阈值,则确定初始模型的模型评价指标满足预定要求;
如果初始模型的模型稳定度指标不大于第一设定阈值,且初始模型的模型预测效果指标不小于第二设定阈值,则确定初始模型的模型评价指标不满足预定要求。
6.一种模型自动更新装置,其特征在于,包括:
构建模块,基于第一预定时间段内的第一时序数据的多个初始特征,构建初始模型;
判断模块,判断所构建的初始模型的模型评价指标是否满足预定要求;
获取模块,如果所述初始模型的模型评价指标满足所述预定要求,则获取第二预定时间段内的第二时序数据;
确定模块,确定所获取的第二时序数据的多个更新特征;
更新模块,基于所述多个更新特征对初始模型进行更新。
7.如权利要求6所述的装置,其特征在于,所述确定模块通过以下方式确定所述多个更新特征:
确定第二预定时间段内的多个预设时间点;
针对每个预设时间点,确定与该预设时间点对应的样本集,其中,样本集包括将第二时序数据按照该预设时间点划分所得到的处于该预设时间点之前的训练数据和处于该预设时间点之后的测试数据;
确定第二时序数据的多个候选特征组,每个候选特征组中包括至少一个候选特征;
针对每个候选特征组,利用所确定的样本集构建针对该候选特征的多个分类器;
针对每个候选特征组,确定该候选特征组在每个分类器下的特征评估指标;
基于所确定的特征评估指标,从多个候选特征组中确定出多个更新特征。
8.一种模型自动更新系统,其特征在于,包括:后台管理服务器和远程服务器;
所述后台管理服务器从远程服务器中获取第一预定时间段内的第一时序数据,基于所获取的第一时序数据的多个初始特征,构建初始模型;
所述后台管理服务器判断所构建的初始模型的模型评价指标是否满足预定要求,如果所述初始模型的模型评价指标满足所述预定要求,则从远程服务器中获取第二预定时间段内的第二时序数据;
所述后台管理服务器确定所获取的第二时序数据的多个更新特征,并基于所述多个更新特征对初始模型进行更新。
9.一种电子设备,其特征在于,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1-5中任一项所述的模型自动更新方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-5中任一项所述的模型自动更新方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110193968.0A CN113011596A (zh) | 2021-02-20 | 2021-02-20 | 一种模型自动更新方法、装置、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110193968.0A CN113011596A (zh) | 2021-02-20 | 2021-02-20 | 一种模型自动更新方法、装置、系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113011596A true CN113011596A (zh) | 2021-06-22 |
Family
ID=76404650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110193968.0A Pending CN113011596A (zh) | 2021-02-20 | 2021-02-20 | 一种模型自动更新方法、装置、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011596A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861989A (zh) * | 2022-04-15 | 2022-08-05 | 阳光保险集团股份有限公司 | 一种加保业务的预测方法及装置 |
CN115291919A (zh) * | 2022-10-10 | 2022-11-04 | 荣耀终端有限公司 | 一种搜包方法及相关装置 |
-
2021
- 2021-02-20 CN CN202110193968.0A patent/CN113011596A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861989A (zh) * | 2022-04-15 | 2022-08-05 | 阳光保险集团股份有限公司 | 一种加保业务的预测方法及装置 |
CN115291919A (zh) * | 2022-10-10 | 2022-11-04 | 荣耀终端有限公司 | 一种搜包方法及相关装置 |
CN115291919B (zh) * | 2022-10-10 | 2023-03-24 | 荣耀终端有限公司 | 一种搜包方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400022B (zh) | 自助柜员机现金用量预测方法及装置 | |
CN110389970B (zh) | 用户意向预测方法、装置、计算机设备及存储介质 | |
CN111652657A (zh) | 商品销量预测方法、装置、电子设备及可读存储介质 | |
US11875367B2 (en) | Systems and methods for dynamic demand sensing | |
US20190180379A1 (en) | Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof | |
WO2020257782A1 (en) | Factory risk estimation using historical inspection data | |
US11537825B2 (en) | Systems and methods for features engineering | |
CN111882420B (zh) | 响应率的生成方法、营销方法、模型训练方法及装置 | |
CN113011596A (zh) | 一种模型自动更新方法、装置、系统及电子设备 | |
WO2020257784A1 (en) | Inspection risk estimation using historical inspection data | |
CN117974321A (zh) | 一种基于规则引擎的金融产品风险管控方法 | |
CN111783487B (zh) | 一种读卡器设备的故障预警方法及装置 | |
CN115689713A (zh) | 异常风险数据处理方法、装置、计算机设备和存储介质 | |
CN116308486A (zh) | 一种目标卷烟销量预测方法、装置、电子设备及存储介质 | |
CN115619539A (zh) | 贷前风险评价方法以及装置 | |
CN115858291A (zh) | 一种系统指标的检测方法、装置、电子设备及其存储介质 | |
CN111724009A (zh) | 风险评估方法、风控系统及风险评估设备 | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
CN111008749A (zh) | 一种需求预测的方法及装置 | |
CN112686448A (zh) | 基于属性数据的流失预警方法及系统 | |
AU2020201689A1 (en) | Cognitive forecasting | |
CN111833171A (zh) | 异常操作检测和模型训练方法、装置以及可读存储介质 | |
JP7537509B2 (ja) | 営業支援装置、営業支援方法、及び営業支援プログラム | |
CN116629926A (zh) | 一种复购预测模型训练方法、复购预测方法及装置 | |
CN117314172A (zh) | 风险等级的确定方法、装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |