CN111210022A - 向后模型选择方法、设备及可读存储介质 - Google Patents

向后模型选择方法、设备及可读存储介质 Download PDF

Info

Publication number
CN111210022A
CN111210022A CN202010024439.3A CN202010024439A CN111210022A CN 111210022 A CN111210022 A CN 111210022A CN 202010024439 A CN202010024439 A CN 202010024439A CN 111210022 A CN111210022 A CN 111210022A
Authority
CN
China
Prior art keywords
model
trained
training
feature
significance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010024439.3A
Other languages
English (en)
Other versions
CN111210022B (zh
Inventor
唐兴兴
黄启军
陈瑞钦
林冰垠
李诗琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010024439.3A priority Critical patent/CN111210022B/zh
Publication of CN111210022A publication Critical patent/CN111210022A/zh
Priority to PCT/CN2020/134736 priority patent/WO2021139465A1/zh
Application granted granted Critical
Publication of CN111210022B publication Critical patent/CN111210022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种向后模型选择方法、设备和可读存储介质,所述向后模型选择方法包括:接收与所述服务端关联的客户端发送的配置参数并获取待训练特征,并基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型,计算各所述待训练特征对应的第一显著性,并基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型,生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。本申请解决了向后选择模式建模门槛高和效率低的技术问题。

Description

向后模型选择方法、设备及可读存储介质
技术领域
本申请涉及金融科技(Fintech)的人工智能技术领域,尤其涉及一种向后模型选择方法、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛,在现有技术中,金融风控、医疗模型等场景通常会使用逻辑回归模型建模,而在逻辑回归模型建模中,向后选择模式是一种重要的模型选择策略,相比全部特征加入模型训练,能有效的防止模型过拟合,但是,当前的向后选择模式通常需求建模人员具备较高的代码开发能力,且只能进行单机实现,也即,当前的向后选择模式的实施对建模人员具有较高的门槛要求,且由于只能进行单机实现进而导致向后选择模式的建模时间长,建模效率较低,所以,现有技术中存在向后选择模式建模门槛高和效率低的技术问题。
发明内容
本申请的主要目的在于提供一种向后模型选择方法、设备和可读存储介质,旨在解决现有技术中向后选择模式建模门槛高和效率低的技术问题。
为实现上述目的,本申请提供一种向后模型选择方法,所述向后模型选择方法应用于服务端,所述向后模型选择方法包括:
接收与所述服务端关联的客户端发送的配置参数并获取待训练特征,并基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型;
计算各所述待训练特征对应的第一显著性,并基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,以基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集;
基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型;
生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。
可选地,所述循环训练模型集包括一个或者多个模型元素,各所述模型元素中包括第二初始训练模型,
所述基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,以基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集的步骤包括:
基于各所述第一显著性和所述预设剔除显著性要求,选取各所述待训练特征中的所述待剔除特征,并剔除所述待剔除特征;
基于剔除后的各所述待训练特征,对所述第一初始训练模型进行训练,获得所述第二初始训练模型;
计算剔除后的各所述待训练特征的第二显著性,并基于各所述第二显著性,在剔除后的各所述待训练特征中再次剔除符合所述预设剔除显著性要求的其他所述待剔除特征;
基于再次剔除后的各所述待训练特征,对所述第二初始训练模型进行循环训练,获得一个或者多个所述模型元素,直至各所述待训练特征中不存在所述待剔除特征。
可选地,所述基于各所述第一显著性和所述预设剔除显著性要求,选取各所述待训练特征中的所述待剔除特征的步骤包括:
将各所述第一显著性进行比对,以在各所述待训练特征中选取显著性最低的特征作为目标特征;
将所述目标特征的目标显著性与预设剔除显著性阀值进行比对;
若所述目标显著性小于所述预设剔除显著性阀值,则判定所述目标特征满足所述预设剔除显著性要求,并将所述目标特征作为所述待剔除特征。
可选地,所述计算各所述待训练特征对应的第一显著性的步骤包括:
计算各所述待训练特征的wald卡方值;
基于各所述wald卡方值和各所述待训练特征的自由度,计算各所述第一显著性。
可选地,所述配置参数包括训练完成判定条件,所述待训练特征包括一条或者多条特征数据;
所述基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型的步骤包括:
将各所述待训练特征对应的所述特征数据输入所述预设待训练模型,以对所述预设待训练模型进行训练更新;
判断更新后的所述预设待训练模型是否满足所述训练完成判定条件,若更新后的所述预设待训练模型满足所述训练完成判定条件,则获得所述第一初始训练模型;
若更新后的所述预设待训练模型不满足所述训练完成判定条件,则继续对所述预设待训练模型进行迭代训练更新,直至更新后的所述预设待训练模型满足所述训练完成判定条件。
可选地,所述基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型的步骤包括:
获取所述参数配置中的模型选择策略,其中,所述模型选择策略包括AUC(AreaUnder Curve,受试者工作特征曲线下与坐标轴围成的面积)值和AIC(Akaike informationcriterion,赤池信息量准则)值;
若所述模型选择策略为所述AUC值,则将所述循环训练模型集中各元素的所述AUC值进行对比,以选取最大的所述AUC值对应的元素作为所述目标训练模型;
若所述模型选择策略为所述AIC值,则将所述循环训练模型集中各元素的所述AIC值进行对比,以选取最小的所述AIC值对应的元素作为所述目标训练模型。
可选地,所述客户端包括可视化界面,
所述生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端的步骤包括:
获取所述目标训练模型的向后模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据;
生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面。
为实现上述目的,本申请还提供一种向后模型选择方法,所述向后模型选择方法应用于客户端,所述向后模型选择方法包括:
接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数和获取的待训练特征进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端;
接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。
本申请还提供一种向后模型选择装置,所述向后模型选择装置应用于向后模型选择设备,所述向后模型选择装置包括:
第一训练模块,用于所述接收与所述服务端关联的客户端发送的配置参数并获取待训练特征,并基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型;
第二训练模块,用于所述计算各所述待训练特征对应的第一显著性,并基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,以基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集;
选取模块,用于所述基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型;
反馈模块,用于所述生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。
可选地,所述第二训练模块包括:
第一剔除子模块,用于所述基于各所述第一显著性和所述预设剔除显著性要求,选取各所述待训练特征中的所述待剔除特征,并剔除所述待剔除特征;
训练子模块,用于所述基于剔除后的各所述待训练特征,对所述第一初始训练模型进行训练,获得所述第二初始训练模型;
第二剔除子模块,用于所述计算剔除后的各所述待训练特征的第二显著性,并基于各所述第二显著性,在剔除后的各所述待训练特征中再次剔除符合所述预设剔除显著性要求的其他所述待剔除特征;
循环训练子模块,用于所述基于再次剔除后的各所述待训练特征,对所述第二初始训练模型进行循环训练,获得一个或者多个所述模型元素,直至各所述待训练特征中不存在所述待剔除特征。
可选地,所述选取子模块包括:
第一比对单元,用于所述将各所述第一显著性进行比对,以在各所述待训练特征中选取显著性最低的特征作为目标特征;
第二比对单元,用于所述将所述目标特征的目标显著性与预设剔除显著性阀值进行比对;
判定单元,用于所述若所述目标显著性小于所述预设剔除显著性阀值,则判定所述目标特征满足所述预设剔除显著性要求,并将所述目标特征作为所述待剔除特征。
可选地,所述第二训练模块还包括:
第一计算子模块,用于所述计算各所述待训练特征的wald卡方值;
第二计算子模块,用于所述基于各所述wald卡方值和各所述待训练特征的自由度,计算各所述第一显著性。
可选地,所述第一训练模块包括:
训练更新子模块,用于所述将各所述待训练特征对应的所述特征数据输入所述预设待训练模型,以对所述预设待训练模型进行训练更新;
第一判断子模块,用于所述判断更新后的所述预设待训练模型是否满足所述训练完成判定条件,若更新后的所述预设待训练模型满足所述训练完成判定条件,则获得所述第一初始训练模型;
第二判断子模块,用于所述若更新后的所述预设待训练模型不满足所述训练完成判定条件,则继续对所述预设待训练模型进行迭代训练更新,直至更新后的所述预设待训练模型满足所述训练完成判定条件。
可选地,所述选取模块包括:
第一获取子模块,用于所述获取所述参数配置中的模型选择策略,其中,所述模型选择策略包括AUC值和AIC值;
第一比对子模块,用于所述若所述模型选择策略为所述AUC值,则将所述循环训练模型集中各元素的所述AUC值进行对比,以选取最大的所述AUC值对应的元素作为所述目标训练模型;
第二比对子模块,用于所述若所述模型选择策略为所述AIC值,则将所述循环训练模型集中各元素的所述AIC值进行对比,以选取最小的所述AIC值对应的元素作为所述目标训练模型。
可选地,所述反馈模块包括:
第二获取子模块,用于所述获取所述目标训练模型的向后模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据;
生成子模块,用于所述生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面。
为实现上述目的,本申请还提供一种向后模型选择装置,所述向后模型选择装置应用于客户端,所述向后选择装置包括:
发送模块,用于所述接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数和获取的待训练特征进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端;
接收模块,用于所述接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。
本申请还提供一种向后模型选择设备,所述向后模型选择设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述向后模型选择方法的程序,所述向后模型选择方法的程序被处理器执行时可实现如上述的向后模型选择方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现向后模型选择方法的程序,所述向后模型选择方法的程序被处理器执行时实现如上述的向后模型选择方法的步骤。
本申请通过接收与所述服务端关联的客户端发送的配置参数并获取待训练特征,并基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型,进而计算各所述待训练特征对应的第一显著性,并基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,进而基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集,进而基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型,进而生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。也即,本申请首先进行与所述服务端关联的客户端发送的配置参数的发送和待训练特征的获取,并基于各所述待训练特征和所述配置参数,进行对预设待训练模型的训练,获得第一初始训练模型,进而进行各所述待训练特征对应的第一显著性的计算,进而基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,进而基于剔除后的各所述待训练特征,进行对所述第一初始训练模型的循环训练,获得循环训练模型集,进而基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型,进而进行所述目标训练模型对应的可视化数据的生成,并将所述可视化数据反馈至所述客户端。也即,本申请提供了一种无代码化分布式建模和可视化建模的向后选择模式的模型选择方法,用户只需通过客户端设置并发送必要的配置参数至服务端,服务端即可反馈相应的向后模型选择过程对应的可视化数据和向后模型选择结果,也即,通过客户端和服务端进行通信连接以进行模型建模,实现了分布式建模,进而相比于单机进行的所述向后选择模式建模,提高了向后选择模式的建模效率,进而通过生成所述目标训练模型对应的可视化数据,并反馈至客户端,实现了可视化建模,降低了建模人员的能力门槛要求并进一步提高了向后选择模式的建模效率,且在本申请中用户只需在客户端的可视化界面输入必要的模型参数即可获取相应的向后模型选择结果,对用户并无代码开发能力的要求,进而实现了无代码建模,进一步降低了对建模人员的能力门槛要求,所以,解决了现有技术中向后选择模式建模门槛高和效率低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请向后模型选择方法第一实施例的流程示意图;
图2为本申请向后模型选择方法中进行所述参数配置的可视化界面的示意图;
图3为本申请向后模型选择方法第二实施例的流程示意图;
图4为本申请向后模型选择方法中第二实施例结合第一实施例进行向后模型选择的流程示意图;
图5为本申请向后模型选择方法第三实施例的流程示意图;
图6为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种向后模型选择方法,所述向后模型选择方法应用于服务端,在本申请向后模型选择方法的第一实施例中,参照图1,所述向后模型选择方法包括:
步骤S10,接收与所述服务端关联的客户端发送的配置参数并获取待训练特征,并基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型;
在本实施例中,需要说明的是,所述客户端包括可视化界面,用户可在所述可视化界面上对预设待训练模型进行参数配置以进行模型训练,如图2所示为进行所述参数配置的可视化界面,其中,所述最大迭代系数、最小收敛误差、向后模型选择模式和类别权重等参数均为模型训练之前需要进行设置的参数,所述向后模型选择模式包括向后选择模式、向后选择模式和逐步选择模式等,所述待训练特征包括一个或者多个特征,且每一特征包括一条获得多条特征数据,所述预设待训练模型包括逻辑回归模型。
接收与所述服务端关联的客户端发送的配置参数并获取待训练特征,并基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型,具体地,接收所述客户端发送的配置参数,并从所述配置参数中提取训练完成判定条件,进而在所述向后模型选择服务端的本地数据库中获取各所述待训练特征,并将各所述待训练特征对应的特征数据输入预设待训练模型,以对所述预设待训练模型进行迭代训练更新,直至所述预设待训练模型达到预设训练完成条件,则完成本次迭代训练,获得更新后的所述预设待训练模型,也即,获得第一初始训练模型,其中,所述预设训练完成判定条件包括达到最小收敛误差、达到最大迭代次数等。
其中,所述配置参数包括训练完成判定条件,所述待训练特征包括一条或者多条特征数据;
所述基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型的步骤包括:
步骤S11,将各所述待训练特征对应的所述特征数据输入所述预设待训练模型,以对所述预设待训练模型进行训练更新;
在本实施例中,需要说明的是,每对所述预设待训练模型进行一次训练,则对所述预设待训练模型进行一次更新,其中,对所述预设待训练模型进行训练更新的梯度下降法等。
步骤S12,判断更新后的所述预设待训练模型是否满足所述训练完成判定条件,若更新后的所述预设待训练模型满足所述训练完成判定条件,则获得所述第一初始训练模型;
在本实施例中,需要说明的是,所述训练完成判定条件包括达到最小收敛误差、达到最大迭代次数等。
判断更新后的所述预设待训练模型是否满足所述训练完成判定条件,若更新后的所述预设待训练模型满足所述训练完成判定条件,则获得所述第一初始训练模型,具体地,判断更新后的所述预设待训练模型是否满足所述训练完成判定条件,若更新后的所述预设待训练模型满足所述训练完成判定条件,则将本次训练获得的更新后的所述预设待训练模型作为所述第一初始训练模型,也即,获得所述第一初始训练模型。
步骤S13,若更新后的所述预设待训练模型不满足所述训练完成判定条件,则继续对所述预设待训练模型进行迭代训练更新,直至更新后的所述预设待训练模型满足所述训练完成判定条件。
在本实施例中,若更新后的所述预设待训练模型不满足所述训练完成判定条件,则继续对所述预设待训练模型进行迭代训练更新,直至更新后的所述预设待训练模型满足所述训练完成判定条件,具体地,若更新后的所述预设待训练模型不满足所述训练完成判定条件,则表明本次训练获得的更新后的所述预设待训练模型不能作为所述第一初始训练模型,进而将各所述待训练特征对应的所述特征数据输入更新后的所述预设待训练模型,以对所述预设待训练模型进行迭代训练更新,直至更新后的所述预设待训练模型满足所述训练完成判定条件。
步骤S20,计算各所述待训练特征对应的第一显著性,并基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,以基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集;
在本实施例中,计算各所述待训练特征对应的第一显著性,并基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,以基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集,具体地,基于各所述待训练特征和各所述待训练特征对应的模型训练结果,通过预设wald卡方值计算公式计算各所述wald卡方值,进而基于各所述wald卡方值和各所述待训练特征的自由度,计算各所述待训练特征对应的第一显著性,进而基于各所述第一显著性,寻找并剔除各所述待训练特征中的待剔除特征,进而基于剔除所述待剔除特征后的各所述待训练特征对所述第一初始训练模型重新进行训练更新,获得更新后的所述第一初始训练模型,也即,获得循环训练模型集的模型元素之一,进一步地,在剔除后的各所述待训练特征中重新进行所述待剔除特征的寻找和对更新后的所述第一初始训练模型的训练,获得模型元素,直至各所述待训练特征无所述待剔除特征,此时,获得一个或者多个所述模型元素,也即,获得所述循环训练模型集。
其中,在步骤S20中,所述计算各所述待训练特征对应的第一显著性的步骤包括:
步骤S21,计算各所述待训练特征的wald卡方值;
在本实施例中,计算各所述待训练特征的wald卡方值,具体地,将各所述待训练特征对应的特征数据表示矩阵代入预设wald卡方值计算公式,分布式并行计算各所述待训练特征对应的wald卡方值,其中,所述预设wald卡方值计算公式如下所示:
Figure BDA0002361574000000111
其中,
Figure BDA0002361574000000112
其中,S为所述第一wald卡方值,所述待训练特征对应的特征数据表示为X,其中,X包括n条数据,每一条数据包括k个数值,且X可用特征数据表示矩阵进行表示,所述特征数据表示矩阵的每一列为一条数据,并对应一所述待训练特征,且X对应的训练所述预设待训练模型获得的模型参数为θ,其中,θ为k维的向量(θ1、θ2、…、θk-1、θk),且所述待训练特征集X可分为第一模型特征集和第二模型特征集,其中,所述第一模型特征集对应的特征数据表示矩阵为X0,所述第二模型特征集对应的特征数据表示矩阵为X1,X0包括n条数据,每一条数据包括(k-t)个数值,且X0对应的训练所述预设待训练模型获得的模型参数为θ0,其中,θ0为(k-t)维的向量(θ1、θ2、…、θk-t),X1包括n条数据,每一条数据包括t个数值,所述待训练模型的目标输出对应的数据集为Y,其中,Y包括n条数据,且Y对应存在预测概率P,P包括n个概率(p1、p2、…、pn-1、pn),则此时进行零假设H0:Cθ=h,此时所有值均为0,C为t*k的矩阵,h为k*1的向量,进一步地,基于各所述第一wald卡方值,剔除所述待训练特征中的非显著特征,获得所述第二待训练特征,其中,所述非显著特征指的是各所述待训练特征中显著性低于预设显著性阀值的特征,其中,所述显著性可基于所述第一wald卡方值和所述待训练特征的自由度获取,其中所述自由度与所述特征的取值相关,例如,假设所述特征包括银行存款、刷卡消费记录和贷款记录,则所述特征包括3个变量,则所述自由度为2。
步骤S22,基于各所述wald卡方值和各所述待训练特征的自由度,计算各所述第一显著性。
在本实施例中,需要说明的是,所述第一显著性可基于皮尔逊相关性值进行判定,当所述皮尔逊相关性值小于或者等于预设皮尔逊相关性阀值,则判定所述第一显著性对应的特征不满足预设剔除显著性要求,也即,所述第一显著性对应的特征表现为显著,当所述皮尔逊相关性值大于预设皮尔逊相关性阀值时,则判定所述第一显著性对应的特征满足预设剔除显著性要求,也即,所述第一显著性对应的特征表现为不显著,所述自由度与特征对应的特征数据的数量相关,例如,假设所述特征数据存在100条不同的数据,则所述自由度为99。
基于各所述wald卡方值和各所述待训练特征的自由度,计算各所述第一显著性,具体地,基于各所述wald卡方值和各所述待训练特征的自由度,通过预设皮尔逊相关性值计算公式计算各所述待训练特征的皮尔逊相关性值,进而通过各所述皮尔逊相关性值计算各所述待训练特征的显著性,例如,假设各所述皮尔逊相关性值分别为0.0001、0.01和0.05,则对应的判定各所述显著性的衡量值为100、1和0.2,其中,所述衡量值越大,则所述显著性越显著。
步骤S30,基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型;
在本实施例中,需要说明的是,所述配置参数包括模型选择策略。
基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型,具体地,基于所述模型选择策略,在所述第一初始训练模型和所述循环训练模型集的各元素中选择最符合所述模型选择策略的模型作为所述目标训练模型。
其中,所述基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型的步骤包括:
步骤S31,获取所述参数配置中的模型选择策略,其中,所述模型选择策略包括AUC值和AIC值;
在本实施例中,需要说明的是,在本实施例中,需要说明的是,所述AUC值所述评价所述训练模型的标准,且AUC值越大,则所述训练模型越优,其中,所述AUC值为ROC(receiver operating characteristic curve,受试者工作特征曲线)曲线下与坐标轴围成的面积,且这个面积的数值不会大于1,其中,所述ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线,所述AIC值为基于AIC准则计算出来的值,其中,所述AIC准则为衡量统计模型拟合优良性的一种标准。
步骤A32,若所述模型选择策略为所述AUC值,则将所述循环训练模型集中各元素的所述AUC值进行对比,以选取最大的所述AUC值对应的元素作为所述目标训练模型。
在本实施例中,若所述模型选择策略为所述AUC值,则将所述循环训练模型集中各元素的所述AUC值进行对比,以选取最大的所述AUC值对应的元素作为所述目标训练模型,具体地,若所述模型选择策略为所述AUC值,则将各所述AUC值进行对比,获得最大AUC值,并将所述最大AUC值对应的训练模型作为所述目标训练模型,其中,所述训练模型包括第一初始训练模型和所述循环训练模型集中的各元素。
步骤S33,若所述模型选择策略为所述AIC值,则将所述循环训练模型集中各元素的所述AIC值进行对比,以选取最小的所述AIC值对应的元素作为所述目标训练模型。
在本实施例中,若所述模型选择策略为所述AIC值,则将所述循环训练模型集中各元素的所述AIC值进行对比,以选取最小的所述AIC值对应的元素作为所述目标训练模型,具体地,若所述模型选择策略为所述AIC值,则将各所述AIC值进行对比,获得最小AIC值,并将所述最小AIC值对应的训练模型作为所述目标训练模型,其中,所述训练模型包括第一初始训练模型和所述循环训练模型集中的各元素。
步骤S40,生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。
在本实施例中,需要说明的是,所述可视化数据包括备选特征可视化数据、模型选择汇总可视化数据和训练过程可视化数据,其中,所述备选特征为所述待训练特征集中的特征,所述模型选择汇总数据包括对第一初始训练模型和所述循环训练模型集中的模型元素进行模型选择的汇总数据。
生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端,具体地,生成所述目标训练模型对应的获取过程对应的可视化数据,其中,所述获取过程包括特征选择过程、模型训练过程和模型选择过程等,进而将所述可视化数据反馈至所述客户端的可视化界面以向客户进行展示,其中,所述特征选择过程为在所述待训练特征集中选择特征的过程,所述模型训练过程为对目标模型训练的过程,其中,所述目标模型包括预设待训练模型、第一初始训练模型和模型元素等,所述模型选择过程为基于预设模型选择策略选择目标训练模型的过程。
其中,所述客户端包括可视化界面,
所述生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端的步骤包括:
步骤S41,获取所述目标训练模型的模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据;
在本实施例中,所述目标训练模型的模型选择过程包括模型迭代训练过程、特征选取过程和模型选取过程等,其中,特征选取过程为剔除所述待剔除特征的过程,所述模型选取过程为基于预设模型选择策略选取目标训练模型的过程。
获取所述目标训练模型的模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据,具体地,实时获取所述特征选取过程的备选特征数据、所述模型选取过程的选择汇总数据和所述模型迭代训练过程的训练过程数据。
步骤S42,生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面。
在本实施例中,需要说明的是,所述可视化数据包括图文数据、表格数据等。
生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面,具体地,实时生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并实时将所述可视化数据实时反馈至所述可视化界面,其中,将所述可视化数据实时反馈至所述可视化界面的时间间隔可由向后模型选择服务端的使用用户自行设置,且客户端用户可在客户端上实时查询所述可视化数据。
本实施例通过接收与所述服务端关联的客户端发送的配置参数并获取待训练特征,并基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型,进而计算各所述待训练特征对应的第一显著性,并基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,进而基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集,进而基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型,进而生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。也即,本实施例首先进行与所述服务端关联的客户端发送的配置参数的发送和待训练特征的获取,并基于各所述待训练特征和所述配置参数,进行对预设待训练模型的训练,获得第一初始训练模型,进而进行各所述待训练特征对应的第一显著性的计算,进而基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,进而基于剔除后的各所述待训练特征,进行对所述第一初始训练模型的循环训练,获得循环训练模型集,进而基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型,进而进行所述目标训练模型对应的可视化数据的生成,并将所述可视化数据反馈至所述客户端。也即,本实施例提供了一种无代码化分布式建模和可视化建模的向后选择模式的模型选择方法,用户只需通过客户端设置并发送必要的配置参数至服务端,服务端即可反馈相应的向后模型选择过程对应的可视化数据和向后模型选择结果,也即,通过客户端和服务端进行通信连接以进行模型建模,实现了分布式建模,进而相比于单机进行的所述向后选择模式建模,提高了向后选择模式的建模效率,进而通过生成所述目标训练模型对应的可视化数据,并反馈至客户端,实现了可视化建模,降低了建模人员的能力门槛要求并进一步提高了向后选择模式的建模效率,且在本实施例中用户只需在客户端的可视化界面输入必要的模型参数即可获取相应的向后模型选择结果,对用户并无代码开发能力的要求,进而实现了无代码建模,进一步降低了对建模人员的能力门槛要求,所以,解决了现有技术中向后选择模式建模门槛高和效率低的技术问题。
进一步地,参照图3,基于本申请中第一实施例,在向后模型选择方法的另一实施例中,在步骤S20中,所述循环训练模型集包括一个或者多个模型元素,各所述模型元素中包括第二初始训练模型,
所述基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,以基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集的步骤包括:
步骤C10,基于各所述第一显著性和所述预设剔除显著性要求,选取各所述待训练特征中的所述待剔除特征,并剔除所述待剔除特征;
在本实施例中,需要说明的是,所述第一显著性可基于皮尔逊相关性值进行判定,当所述皮尔逊相关性值小于或者等于预设皮尔逊相关性阀值,则判定所述第一显著性对应的特征不满足预设剔除显著性要求,也即,所述第一显著性对应的特征表现为显著,当所述皮尔逊相关性值大于预设皮尔逊相关性阀值时,则判定所述第一显著性对应的特征满足预设剔除显著性要求,也即,所述第一显著性对应的特征表现为不显著。
基于各所述第一显著性和所述预设剔除显著性要求,选取各所述待训练特征中的所述待剔除特征,并剔除所述待剔除特征,具体地,将各所述第一显著性进行对比,以在各所述待训练特征中选取显著性最低的特征作为目标特征,并判断所述目标特征是否满足预设剔除显著性要求,若所述目标特征满足所述预设剔除显著性要求,则将所述目标特征作为所述待剔除特征,并剔除所述待剔除特征,若所述目标特征不满足所述预设剔除显著性要求,则结束本次循环训练。
其中,所述基于各所述第一显著性和所述预设剔除显著性要求,选取各所述待训练特征中的所述待剔除特征的步骤包括:
步骤C11,将各所述第一显著性进行比对,以在各所述待训练特征中选取显著性最低的特征作为目标特征;
在本实施例中,将各所述第一显著性进行比对,以在各所述待训练特征中选取显著性最低的特征作为目标特征,具体地,将各所述第一显著性进行一一比对,以获取各所述显著性对应的各所述待训练特征中最不显著的特征,也即,获取皮尔逊相关性值最高的特征,也即,在各所述待训练特征中选取显著性最低的特征作为目标特征。
步骤C12,将所述目标特征的目标显著性与预设剔除显著性阀值进行比对;
步骤C13,若所述目标显著性小于所述预设剔除显著性阀值,则判定所述目标特征满足所述预设剔除显著性要求,并将所述目标特征作为所述待剔除特征。
在本实施例中,将所述目标特征的目标显著性与预设剔除显著性阀值进行比对,若所述目标显著性小于所述预设剔除显著性阀值,则判定所述目标特征满足所述预设剔除显著性要求,并将所述目标特征作为所述待剔除特征,具体地,将所述目标特征的目标显著性与预设显著性阀值进行对比,其中,所述目标显著性为所述目标特征的第一显著性,若所述目标显著性低于所述预设显著性阀值,则所述目标特征满足所述预设剔除显著性要求,也即,所述目标特征是不显著的,进而将所述目标特征作为所述待剔除特征,若所述目标显著性高于或者等于所述预设显著性阀值,则所述目标特征不满足所述预设剔除显著性要求,也即,所述目标特征是显著的,则结束本次循环训练。
步骤C20,基于剔除后的各所述待训练特征,对所述第一初始训练模型进行训练,获得所述第二初始训练模型。
在本实施例中,需要说明的是,所述循环训练模型集包括一个或者多个模型元素。
基于剔除后的各所述待训练特征,对所述第一初始训练模型进行训练,获得所述第二初始训练模型,具体地,将剔除后的各所述待训练特征的特征数据输入所述第一初始训练模型,以对所述第一初始训练模型进行迭代训练更新,直至更新后的所述第一初始训练模型满足预设训练完成判定条件,获得更新后的所述第一初始训练模型,也即,获得所述第二初始训练模型,其中,所述预设训练完成条件包括达到最大迭代次数和达到最小收敛误差等。
步骤C30,计算剔除后的各所述待训练特征的第二显著性,并基于各所述第二显著性,在剔除后的各所述待训练特征中再次剔除符合所述预设剔除显著性要求的其他所述待剔除特征;
在本实施例中,计算剔除后的各所述待训练特征的第二显著性,并基于各所述第二显著性,在剔除后的各所述待训练特征中再次剔除符合所述预设剔除显著性要求的其他所述待剔除特征,具体地,重新计算剔除后的各所述待训练特征的wald卡方值,并基于重新计算的各所述wald卡方值和剔除后的各所述待训练特征的自由度,计算剔除后的各所述待训练特征的第二显著性,进而基于各所述第二显著性,判断剔除后的各所述待训练特征中是否存在满足预设剔除显著性要求的待剔除特征,若剔除后的各所述待训练特征中存在满足预设剔除显著性要求的其他待剔除特征,则再次剔除所述其他待剔除特征,若剔除后的各所述待训练特征中不存在满足预设剔除显著性要求的其他待剔除特征,则结束本次循环训练。
步骤C40,基于再次剔除后的各所述待训练特征,对所述第二初始训练模型进行循环训练,获得一个或者多个所述模型元素,直至各所述待训练特征中不存在所述待剔除特征。
在本实施例中,基于再次剔除后的各所述待训练特征,对所述第二初始训练模型进行循环训练,获得一个或者多个所述模型元素,直至各所述待训练特征中不存在所述待剔除特征,具体地,基于再次剔除后的各所述待训练特征,对所述第二初始训练模型进行迭代训练更新,直至所述第二初始训练模型达到训练完成判定条件,获得更新后的所述第二初始训练模型,也即,获得模型元素之一,并重新循环进行所述待剔除特征的寻找和剔除、对循环更新的所述第二初始训练模型的跌打训练更新,获得一个或者多个模型元素,直至所述待训练特征中不存在满足预设剔除显著性要求的所述待剔除特征,则结束本次循环训练,进而获得循环训练模型集,如图4所示为本实施例结合第一实施例进行向后模型选择的流程示意图,其中,模型中的特征即为各所述待训练特征,训练模型为所述预设待训练模型或者为经过训练后的预设待训练模型,例如第一初始训练模型或者其他模型元素等,所述阀值为所述预设剔除显著性阀值。
本实施例基于各所述第一显著性和所述预设剔除显著性要求,选取各所述待训练特征中的所述待剔除特征,并剔除所述待剔除特征,进而基于剔除后的各所述待训练特征,对所述第一初始训练模型进行训练,获得所述第二初始训练模型,进而计算剔除后的各所述待训练特征的第二显著性,并基于各所述第二显著性,在剔除后的各所述待训练特征中再次剔除符合所述预设剔除显著性要求的其他所述待剔除特征,进而基于再次剔除后的各所述待训练特征,对所述第二初始训练模型进行循环训练,获得一个或者多个所述模型元素,直至各所述待训练特征中不存在所述待剔除特征。也即,本实施例通过计算各所述待训练特征的显著性,逐个剔除各所述待训练特征中的待剔除特征,并基于每次剔除后的待训练特征对所述第一初始训练模型进行训练更新,直至各所述待训练特征中不存在所述待剔除特征,则获得所述循环训练模型集,进而基于所述循环训练模型集可进行向后选择模式的模型选择,也即,通过计算并分析各待训练特征对应的显著性,逐步剔除各所述待训练特征的待剔除特征,以对所述第一初始训练模型进行循环训练,获得循环训练模型集,进而为实现无代码化分布式建模和可视化建模的向后选择模式的模型选择奠定了基础,也即,为解决现有技术中向后选择模式建模门槛高和效率低的技术问题奠定了基础。
进一步地,参照图5,基于本申请中第一实施例,在向前模型选择方法的另一实施例中,所述向前模型选择方法应用于客户端,所述向前模型选择方法包括:
步骤A10,接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端;
在本实施例中,需要说明的是,所述模型选择任务包括目标模型要求,所述目标模型要求由所述配置参数决定,所述配置参数包括大迭代系数、最小收敛误差、模型选择模式等参数。
接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端,具体地,接收模型选择任务,并在预设本地数据库中匹配所述模型选择任务对应的配置参数或者由用户基于所述模型选择任务自行设置所述配置参数,进一步地,将所述配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数进行对预设初始模型的训练更新,获得待训练模型,进而对所述待训练模型进行循环训练更新,获得一个或者多个待选择模型,也即获得循环训练模型集,并在各所述待选择模型中选取符合预设模型选择策略的模型作为目标训练模型,并将所述目标训练模型对应的过程数据转化为所述可视化数据反馈至所述客户端,其中,所述可视化数据包括备选特征可视化数据、模型选择汇总可视化数据和模型训练过程可视化数据,其中,所述备选特征为各所述待训练特征,所述模型选择汇总数据包括对所述循环训练模型集中的模型元素基于预设模型选择策略进行模型选择的汇总数据。
步骤A20,接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。
在本实施例中,需要说明的是,所述客户端可在所述预设可视化界面上实时查询所述服务端的所述过程数据对应的可视化数据,且可在进行模型选择的过程中或者模型选择结束后进行所述过程数据的查询,所述客户端与所述服务端通信连接。
本实施例通过接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端,进而接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。也即,本实施提供了一种无代码化分布式建模和可视化建模的模型选择方法,用户只需通过客户端设置并发送必要的配置参数至服务端,服务器端可反馈相应的可视化数据,也即,本实施例实现了分布式建模,提高了进行模型选择时的建模效率,且该模型选择过程对用户无任何代码开发能力要求,降低了对建模人员的能力门槛要求,且由于服务端可将获取所述目标训练模型对应的过程数据转化为可视化数据反馈至客户端,进一步降低了对建模人员的能力门槛要求,且可视化数据便于建模人员去进行理解和阅读,进而可进一步提高建模人员的建模效率,所以,解决了现有技术中向前选择模式建模门槛高和效率低的技术问题。
参照图6,图6是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图6所示,该向后模型选择设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该向后模型选择设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图6中示出的向后模型选择设备结构并不构成对向后模型选择设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图6所示,作为一种计算机存储可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及向后模型选择程序。操作系统是管理和控制向后模型选择设备硬件和软件资源的程序,支持向后模型选择程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与向后模型选择系统中其它硬件和软件之间通信。
在图6所示的向后模型选择设备中,处理器1001用于执行存储器1005中存储的向后模型选择程序,实现上述任一项所述的向后模型选择方法的步骤。
本申请向后模型选择设备具体实施方式与上述向后模型选择方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种向后模型选择装置,所述向后模型选择装置应用于服务端,所述向后模型选择装置包括:
第一训练模块,用于所述接收与所述服务端关联的客户端发送的配置参数并获取待训练特征,并基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型;
第二训练模块,用于所述计算各所述待训练特征对应的第一显著性,并基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,以基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集;
选取模块,用于所述基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型;
反馈模块,用于所述生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。
可选地,所述第二训练模块包括:
第一剔除子模块,用于所述基于各所述第一显著性和所述预设剔除显著性要求,选取各所述待训练特征中的所述待剔除特征,并剔除所述待剔除特征;
训练子模块,用于所述基于剔除后的各所述待训练特征,对所述第一初始训练模型进行训练,获得所述第二初始训练模型;
第二剔除子模块,用于所述计算剔除后的各所述待训练特征的第二显著性,并基于各所述第二显著性,在剔除后的各所述待训练特征中再次剔除符合所述预设剔除显著性要求的其他所述待剔除特征;
循环训练子模块,用于所述基于再次剔除后的各所述待训练特征,对所述第二初始训练模型进行循环训练,获得一个或者多个所述模型元素,直至各所述待训练特征中不存在所述待剔除特征。
可选地,所述选取子模块包括:
第一比对单元,用于所述将各所述第一显著性进行比对,以在各所述待训练特征中选取显著性最低的特征作为目标特征;
第二比对单元,用于所述将所述目标特征的目标显著性与预设剔除显著性阀值进行比对;
判定单元,用于所述若所述目标显著性小于所述预设剔除显著性阀值,则判定所述目标特征满足所述预设剔除显著性要求,并将所述目标特征作为所述待剔除特征。
可选地,所述第二训练模块还包括:
第一计算子模块,用于所述计算各所述待训练特征的wald卡方值;
第二计算子模块,用于所述基于各所述wald卡方值和各所述待训练特征的自由度,计算各所述第一显著性。
可选地,所述第一训练模块包括:
训练更新子模块,用于所述将各所述待训练特征对应的所述特征数据输入所述预设待训练模型,以对所述预设待训练模型进行训练更新;
第一判断子模块,用于所述判断更新后的所述预设待训练模型是否满足所述训练完成判定条件,若更新后的所述预设待训练模型满足所述训练完成判定条件,则获得所述第一初始训练模型;
第二判断子模块,用于所述若更新后的所述预设待训练模型不满足所述训练完成判定条件,则继续对所述预设待训练模型进行迭代训练更新,直至更新后的所述预设待训练模型满足所述训练完成判定条件。
可选地,所述选取模块包括:
第一获取子模块,用于所述获取所述参数配置中的模型选择策略,其中,所述模型选择策略包括AUC值和AIC值;
第一比对子模块,用于所述若所述模型选择策略为所述AUC值,则将所述循环训练模型集中各元素的所述AUC值进行对比,以选取最大的所述AUC值对应的元素作为所述目标训练模型;
第二比对子模块,用于所述若所述模型选择策略为所述AIC值,则将所述循环训练模型集中各元素的所述AIC值进行对比,以选取最小的所述AIC值对应的元素作为所述目标训练模型。
可选地,所述反馈模块包括:
第二获取子模块,用于所述获取所述目标训练模型的向后模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据;
生成子模块,用于所述生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面。
本申请向后模型选择装置的具体实施方式与上述向后模型选择方法各实施例基本相同,在此不再赘述。
为实现上述目的,本申请实施例还提供一种向后模型选择装置,所述向后模型选择装置应用于客户端,所述向后模型选择装置包括:
发送模块,用于所述接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数和获取的待训练特征进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端;
接收模块,用于所述接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。
本申请向后模型选择装置的具体实施方式与上述向后模型选择方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的向后模型选择方法的步骤。
本申请可读存储介质具体实施方式与上述向后模型选择方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种向后模型选择方法,其特征在于,所述向后模型选择方法应用于服务端,所述向后模型选择方法包括:
接收与所述服务端关联的客户端发送的配置参数并获取待训练特征,并基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型;
计算各所述待训练特征对应的第一显著性,并基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,以基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集;
基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型;
生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。
2.如权利要求1所述向后模型选择方法,其特征在于,所述循环训练模型集包括一个或者多个模型元素,各所述模型元素中包括第二初始训练模型,
所述基于各所述第一显著性,在各所述待训练特征中剔除符合预设剔除显著性要求的待剔除特征,以基于剔除后的各所述待训练特征,对所述第一初始训练模型进行循环训练,获得循环训练模型集的步骤包括:
基于各所述第一显著性和所述预设剔除显著性要求,选取各所述待训练特征中的所述待剔除特征,并剔除所述待剔除特征;
基于剔除后的各所述待训练特征,对所述第一初始训练模型进行训练,获得所述第二初始训练模型;
计算剔除后的各所述待训练特征的第二显著性,并基于各所述第二显著性,在剔除后的各所述待训练特征中再次剔除符合所述预设剔除显著性要求的其他所述待剔除特征;
基于再次剔除后的各所述待训练特征,对所述第二初始训练模型进行循环训练,获得一个或者多个所述模型元素,直至各所述待训练特征中不存在所述待剔除特征。
3.如权利要求2所述向后模型选择方法,其特征在于,所述基于各所述第一显著性和所述预设剔除显著性要求,选取各所述待训练特征中的所述待剔除特征的步骤包括:
将各所述第一显著性进行比对,以在各所述待训练特征中选取显著性最低的特征作为目标特征;
将所述目标特征的目标显著性与预设剔除显著性阀值进行比对;
若所述目标显著性小于所述预设剔除显著性阀值,则判定所述目标特征满足所述预设剔除显著性要求,并将所述目标特征作为所述待剔除特征。
4.如权利要求1所述向后模型选择方法,其特征在于,所述计算各所述待训练特征对应的第一显著性的步骤包括:
计算各所述待训练特征的wald卡方值;
基于各所述wald卡方值和各所述待训练特征的自由度,计算各所述第一显著性。
5.如权利要求1所述向后模型选择方法,其特征在于,所述配置参数包括训练完成判定条件,所述待训练特征包括一条或者多条特征数据;
所述基于各所述待训练特征和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型的步骤包括:
将各所述待训练特征对应的所述特征数据输入所述预设待训练模型,以对所述预设待训练模型进行训练更新;
判断更新后的所述预设待训练模型是否满足所述训练完成判定条件,若更新后的所述预设待训练模型满足所述训练完成判定条件,则获得所述第一初始训练模型;
若更新后的所述预设待训练模型不满足所述训练完成判定条件,则继续对所述预设待训练模型进行迭代训练更新,直至更新后的所述预设待训练模型满足所述训练完成判定条件。
6.如权利要求1所述向后模型选择方法,其特征在于,所述基于所述配置参数,从所述第一初始训练模型和循环训练模型集之中选取目标训练模型的步骤包括:
获取所述参数配置中的模型选择策略,其中,所述模型选择策略包括AUC值和AIC值;
若所述模型选择策略为所述AUC值,则将所述循环训练模型集中各元素的所述AUC值进行对比,以选取最大的所述AUC值对应的元素作为所述目标训练模型;
若所述模型选择策略为所述AIC值,则将所述循环训练模型集中各元素的所述AIC值进行对比,以选取最小的所述AIC值对应的元素作为所述目标训练模型。
7.如权利要求1所述向后模型选择方法,其特征在于,所述客户端包括可视化界面,
所述生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端的步骤包括:
获取所述目标训练模型的模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据;
生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面。
8.一种向后模型选择方法,其特征在于,所述向后模型选择方法应用于客户端,所述向后模型选择方法包括:
接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数和获取的待训练特征进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端;
接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。
9.一种向后模型选择设备,其特征在于,所述向后模型选择设备包括:存储器、处理器以及存储在存储器上的用于实现所述向后模型选择方法的程序,
所述存储器用于存储实现向后模型选择方法的程序;
所述处理器用于执行实现所述向后模型选择方法的程序,以实现如权利要求1至7或8中任一项所述向后模型选择方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现向后模型选择方法的程序,所述实现向后模型选择方法的程序被处理器执行以实现如权利要求1至7或8中任一项所述向后模型选择方法的步骤。
CN202010024439.3A 2020-01-09 2020-01-09 向后模型选择方法、设备及可读存储介质 Active CN111210022B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010024439.3A CN111210022B (zh) 2020-01-09 2020-01-09 向后模型选择方法、设备及可读存储介质
PCT/CN2020/134736 WO2021139465A1 (zh) 2020-01-09 2020-12-09 向后模型选择方法、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010024439.3A CN111210022B (zh) 2020-01-09 2020-01-09 向后模型选择方法、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111210022A true CN111210022A (zh) 2020-05-29
CN111210022B CN111210022B (zh) 2024-05-17

Family

ID=70786101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010024439.3A Active CN111210022B (zh) 2020-01-09 2020-01-09 向后模型选择方法、设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN111210022B (zh)
WO (1) WO2021139465A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434620A (zh) * 2020-11-26 2021-03-02 新智数字科技有限公司 场景文字识别方法、装置、设备和计算机可读介质
WO2021139465A1 (zh) * 2020-01-09 2021-07-15 深圳前海微众银行股份有限公司 向后模型选择方法、设备及可读存储介质
WO2021139483A1 (zh) * 2020-01-09 2021-07-15 深圳前海微众银行股份有限公司 向前模型选择方法、设备和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875289A (zh) * 2017-05-08 2018-11-23 腾讯科技(深圳)有限公司 一种算法调试方法、客户端、后台服务器及系统
CN110298389A (zh) * 2019-06-11 2019-10-01 上海冰鉴信息科技有限公司 训练模型时的多轮循环特征选择方法和装置
CN110378472A (zh) * 2019-07-24 2019-10-25 苏州浪潮智能科技有限公司 一种深度神经网络模型的数据并行训练方法、装置及设备
US20190370684A1 (en) * 2018-06-01 2019-12-05 Sas Institute Inc. System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374104A1 (en) * 2017-06-26 2018-12-27 Sap Se Automated learning of data aggregation for analytics
CN108830380B (zh) * 2018-04-11 2021-10-01 开放智能机器(上海)有限公司 一种基于云服务的训练模型生成方法及系统
CN110543946B (zh) * 2018-05-29 2022-07-05 百度在线网络技术(北京)有限公司 用于训练模型的方法和装置
CN111210022B (zh) * 2020-01-09 2024-05-17 深圳前海微众银行股份有限公司 向后模型选择方法、设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875289A (zh) * 2017-05-08 2018-11-23 腾讯科技(深圳)有限公司 一种算法调试方法、客户端、后台服务器及系统
US20190370684A1 (en) * 2018-06-01 2019-12-05 Sas Institute Inc. System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model
CN110298389A (zh) * 2019-06-11 2019-10-01 上海冰鉴信息科技有限公司 训练模型时的多轮循环特征选择方法和装置
CN110378472A (zh) * 2019-07-24 2019-10-25 苏州浪潮智能科技有限公司 一种深度神经网络模型的数据并行训练方法、装置及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139465A1 (zh) * 2020-01-09 2021-07-15 深圳前海微众银行股份有限公司 向后模型选择方法、设备及可读存储介质
WO2021139483A1 (zh) * 2020-01-09 2021-07-15 深圳前海微众银行股份有限公司 向前模型选择方法、设备和可读存储介质
CN112434620A (zh) * 2020-11-26 2021-03-02 新智数字科技有限公司 场景文字识别方法、装置、设备和计算机可读介质
CN112434620B (zh) * 2020-11-26 2024-03-01 新奥新智科技有限公司 场景文字识别方法、装置、设备和计算机可读介质

Also Published As

Publication number Publication date
WO2021139465A1 (zh) 2021-07-15
CN111210022B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
WO2021139462A1 (zh) 逐步模型选择方法、设备及可读存储介质
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
WO2021139465A1 (zh) 向后模型选择方法、设备及可读存储介质
CN113095512A (zh) 联邦学习建模优化方法、设备、介质及计算机程序产品
CN110287316A (zh) 一种告警分类方法、装置、电子设备及存储介质
EP4239491A1 (en) Method and system for processing data tables and automatically training machine learning model
WO2020007177A1 (zh) 计算机执行的报价方法、报价装置、电子设备及存储介质
CN113743607A (zh) 异常检测模型的训练方法、异常检测方法及装置
CN111428883A (zh) 基于向后法的联邦建模方法、设备和可读存储介质
CN113222149A (zh) 模型训练方法、装置、设备和存储介质
CN113378067B (zh) 基于用户挖掘的消息推荐方法、设备、介质
CN111241746B (zh) 向前模型选择方法、设备和可读存储介质
CN112784102B (zh) 视频检索方法、装置和电子设备
CN112766402A (zh) 算法选择方法、装置和电子设备
US11847599B1 (en) Computing system for automated evaluation of process workflows
CN114419327B (zh) 图像检测方法和图像检测模型的训练方法、装置
CN113793298A (zh) 肺结节检测模型构建优化方法、设备、存储介质及产品
CN113515577A (zh) 数据预处理方法及装置
CN112070162A (zh) 多类别处理任务训练样本构建方法、设备及介质
CN113868460A (zh) 一种图像检索方法、装置及系统
CN111209428A (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN116340864B (zh) 一种模型漂移检测方法、装置、设备及其存储介质
CN116151392B (zh) 训练样本生成方法、训练方法、推荐方法以及装置
CN112801489B (zh) 诉讼案件风险检测方法、装置、设备和可读存储介质
US20230195838A1 (en) Discovering distribution shifts in embeddings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant