CN112884092B - Ai模型生成方法、电子设备及存储介质 - Google Patents
Ai模型生成方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112884092B CN112884092B CN202110465637.8A CN202110465637A CN112884092B CN 112884092 B CN112884092 B CN 112884092B CN 202110465637 A CN202110465637 A CN 202110465637A CN 112884092 B CN112884092 B CN 112884092B
- Authority
- CN
- China
- Prior art keywords
- model
- target
- sample set
- preset
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Debugging And Monitoring (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及人工智能技术领域,并公开了一AI模型生成方法、电子设备及存储介质,所述方法包括:响应于用户基于场景变量分析报告输入的第一目标参数,获取目标变量阈值范围内的目标变量;根据目标变量对总体样本进行分层抽样处理,得到抽样样本;对抽样样本进行数据预处理,得到训练样本集和测试样本集;并根据用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型;通过该训练样本集对选取的各个待训练模型进行训练,基于测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型。能够根据业务场景选择的待训练模型进行训练及测试,得到能够满足当前业务场景的AI模型,并能保证模型的有效性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种AI模型生成方法、电子设备及存储介质。
背景技术
近年来,虽然人工智能技术得到了普遍的发展及应用,但是人工智能模型的建立过程是一个非常复杂的系统工程,不仅需要专业的建模人员深入理解业务流程,还需要对建模中涉及到的算法非常熟悉。目前,为了降低建模的复杂度,很多企业对建模的过程进行了研究。常见的是针对建模过程中模型算法部分的研究,通常基于一些模型算法封装出开源的模型架构来降低模型建立的难度,但是其无法实现从原始数据到建模结果的自动完成。这是由于在不同的业务领域,目标变量的抽样选取过程以及基于目标变量生成训练样本的过程差异较大,且基于不同的训练特征及业务场景需要对模型的准确性进行不同的校验。
因此,现有的开源模型架构无法根据不同的业务场景需求,生成有效的AI模型。
发明内容
本申请提供了一种AI模型生成方法、装置、设备及存储介质,能够针对不同的业务场景生成有性的AI模型。
第一方面,本申请提供了一种AI模型生成方法,所述方法包括:
响应于用户基于场景变量分析报告输入的第一目标参数,根据所述第一目标参数获取预设数量的目标变量;
根据所述目标变量对总体样本进行分层抽样处理,得到抽样样本;
对所述抽样样本进行数据预处理,得到训练样本集和测试样本集;
响应于用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型;
基于所述训练样本集对选取的各个待训练模型进行训练,基于测试样本集对训练之后的各个模型的预设评价指标进行测试,根据测试结果确定AI模型。
第二方面,本申请还提供了一种电子设备,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上第一方面所述的AI模型生成方法的步骤。
第三方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上第一方面所述的AI模型生成方法的步骤。
本申请公开了一种AI模型生成方法、电子设备及存储介质,通过响应于用户基于场景变量分析报告输入的第一目标参数,获取目标变量阈值范围内的目标变量;根据目标变量对总体样本进行抽样处理,得到抽样样本;对抽样样本进行数据预处理,得到训练样本集和测试样本集;并根据用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型;通过该训练样本集对选取的各个待训练模型进行训练,基于测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型。能够根据场景变量分析报告确定目标变量阈值范围和目标变量,并对目标变量进行数据预处理后,对根据业务场景选择的待训练模型进行训练及测试,得到能够满足当前业务场景的AI模型,并能保证模型的有效性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的AI模型生成方法的示意流程图;
图2是图1中S104的具体实现流程图;
图3是本申请另一实施例提供的AI模型生成方法的示意流程图;
图4是本申请实施例提供的AI模型生成装置的结构示意图;
图5是本申请实施例提供的电子设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种AI模型生成方法、电子设备及存储介质。本申请实施例提供的AI模型生成方法可用于通过响应于用户基于场景变量分析报告输入的第一目标参数,获取目标变量阈值范围内的目标变量;根据目标变量对总体样本进行抽样处理,得到抽样样本;对抽样样本进行数据预处理,得到训练样本集和测试样本集;并根据用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型;通过该训练样本集对选取的各个待训练模型进行训练,基于测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型。能够根据场景变量分析报告确定目标变量阈值范围和目标变量,并根据目标变量对总体样本进行抽样处理,进一步对抽样处理之后得到的抽样样本进行数据预处理后,对根据业务场景选择的待训练模型进行训练及测试,得到能够满足当前业务场景的AI模型,并能保证模型的有效性。
例如,本申请的实施例提供的AI模型生成方法,可应用于电子设备,该电子设备可以是终端或者服务器,通过场景变量分析报告确定目标变量阈值范围和目标变量后,根据目标变量对总体样本进行抽样处理,并对抽样处理之后得到的抽样样本进行数据预处理后,实现根据业务场景选择的待训练模型进行训练及测试,得到能够满足当前业务场景的AI模型,并能保证模型的有效性。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请一实施例提供的AI模型生成方法的示意流程图。该AI模型生成方法可以由电子设备的硬件或软件执行完成。该电子设备包括终端或者服务器,该终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等;该服务器可以是单个服务器或者服务器集群。
如图1所示,本实施例提供的AI模型生成方法,具体包括:步骤S101至步骤S104。详述如下:
S101、响应于用户基于场景变量分析报告输入的第一目标参数,根据所述第一目标参数获取目标变量阈值范围内的目标变量。
其中,场景变量分析报告包括业务场景下的各目标变量、目标变量阈值和第一目标参数之间的关联关系。用户基于场景变量分析报告包括的各目标变量、目标变量阈值和第一目标参数之间的关联关系,可以选择输入当前业务场景对应的第一目标参数,电子设备根据用户输入的第一目标参数可以从关联关系中确定出目标变量阈值和目标变量,进而实现根据第一目标参数获取目标变量阈值范围内的目标变量。能够保证获取适当数量的目标变量来保证模型的参数稳定性。
具体地,第一目标参数为预定义的与业务场景具有映射关系的参数,例如,第一目标参数用parm表示,假设parm=1对应的业务场景为反欺诈场景,parm=2对应的业务场景为客户流失场景等。其中,业务场景包括需要解决的问题,也可以称为问题定义,例如parm=1可以理解为需要分析反欺诈的问题,parm=2可以理解为需要分析客户流失问题。
S102、根据所述目标变量对总体样本进行抽样处理,得到抽样样本。
其中,根据目标变量对总体样本进行抽样处理,得到抽样样本,包括:根据目标变量对总体样本进行分层抽样处理,得到抽样样本。具体地,分层抽样处理的过程可以由预设的抽样函数自动实现,在此不再赘述。
在一实施例中,在根据目标变量对总体样本进行分层抽样处理之后,还可以对抽样样本中的任意样本进行验证,以确定抽样过程中得到的抽样样本的有效性。
具体地,还可以对抽样样本进行数据有效性校验之后,输出校验结果报告。具体地,包括:校验抽样样本与总体样本在预设指标维度上的分布一致性,根据抽样样本与总体样本在预设指标维度上的分布一致性,生成校验结果报告并输出。
其中,预设指标维度可以是样本对当前业务场景下对应的模型参数具有关键影响的维度,例如当前业务场景下对应的模型是金融领域中针对低消费高潜能客户群体的挖掘模型,在该当前业务场景下,预设指标维度可以是消费评分维度、消费金额维度、风险评分维度、消费笔数维度和每笔消费额度阈值维度等。在本实施例中,将对抽样样本与总体样本在预设指标维度上的分布一致性的校验结果以校验结果报告的方式显示给用户(建模人员)。用户可通过校验结果报告确定抽样样本是否为有效样本,从而确定是否选择抽样样本进行模型建立。具体地,若检验结果显示抽样样本与总体样本的各预设指标维度的分布一致,则确定该抽样样本为有效样本;对应地,该抽样样本可以作为当前场景下模型建立的样本;若校验结果显示抽样样本与总体样本的任意预设指标维度分布不一致,则确定该抽样样本为无效样本;对应地,该抽样样本不可以作为当前场景下模型建立的样本,需要重新执行步骤S101,即重新获取目标变量,直至对抽样样本的有效性校验通过。通过对总样本与抽样样本在预设指标维度上的分布一致性进行校验,可以确定抽样样本对当前场景下模型的参数具有关键维度的影响。
S103、对所述抽样样本进行数据预处理,得到训练样本集和测试样本集。
示例性地,对抽样样本进行数据预处理,得到训练样本集和测试样本集,包括:响应于用户基于校验结果报告触发的数据预处理指令,对抽样样本进行数据预处理,得到训练样本和所述测试样本集。其中,训练样本集和测试样本集中的样本数量可以为预设的比例,例如训练样本集中的样本数量与测试样本集中的样本数量可以为7:3的比例。
在一实施例中,所述对所述抽样样本进行数据预处理,得到所述训练样本和所述测试样本集,包括:对抽样样本进行数据填充和/或数据异常处理,对经数据填充和/或数据异常处理之后的样本进行衍生处理,得到目标样本集;将目标样本集划分为训练样本集和测试样本集。
具体地,对抽样样本进行数据填充和/或数据异常处理包括缺失值的处理、异常值的识别和处理以及不同数据类型(例如字符和数值)之间的转换等。对经数据填充和/或数据异常处理之后的样本进行衍生处理包括通过预先封装的数据特征衍生函数如数据特征的交叉衍生函数、数据特征的期间动态变量衍生函数、数据特征的时间点变量衍生函数或者数据特征的统计量衍生函数等对数据填充和/或数据异常处理之后的样本进行衍生处理,得到包括数据填充和/或数据异常处理之后的样本、样本的均值、方差、标准差、最大或最小值等数据的目标样本集。在保证了样本的有效性同时,实现了样本的多样性。
S104、响应于用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型。
通常,随着业务场景的不同,选取的模型算法不一致。例如,在金融领域的反欺诈场景或者客户流失预警场景中,常选取分类模型进行目标预测;而在二手车交易的价格预测或者客流量预测等场景中,常选取回归模型进行目标预测。在本申请的实施例中,电子设备的内部预设有多种模型算法,且各模型算法与第二目标参数关联存储,用户(建模人员)只需要根据当前业务场景,输入对应的第二目标参数,电子设备根据预设的各模型算法与第二目标参数的关联关系,自动从多种算法中匹配出与当前业务场景相匹配的优选模型算法。
其中,第二目标参数为预设的代表当前业务场景下需要解决的分类问题的参数,相应的第二目标参数的选择,可以由专业人员根据经验进行预先设置,例如当前业务场景需要解决的是分类问题,则可以设置第二目标参数parm2=’class’,若当前业务场景需要解决的是回归问题,则可以设置第二目标参数parm2=’reg’等。电子设备可以根据输入的第二目标参数选取较优的模型;在本实施例中,电子设备可以选取单个候选模型或者几个候选模型作为待训练模型。通过将不同业务场景对应的第二目标参数与模型算法进行关联存储,实现了根据用户输入的第二目标参数,获取与当前业务场景对应的至少一个待训练模型,降低了模型架构的获取难度以及模型与业务场景的有效结合。
S105、基于所述训练样本集对选取的各个待训练模型进行训练,基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型。
在一实施例中,电子设备在选择了可能的各个待训练模型(算法)之后,将会根据确定的目标变量对各待训练模型进行训练,以得到训练之后的模型,同时根据AI模型的预设评价指标,例如auc、ks、psi等评价指标,对训练之后的各模型进行模型性能测试,得到满足当前业务场景的最优AI模型。
具体地,基于测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型的过程包括:遍历训练后的各模型,对比各模型的预设评价指标如auc、ks、psi等评价指标;若不同模型对应的各预设评价指标的变化率不同,则进行各模型融合处理,对融合处理之后的融合模型再利用预设评价指标进行模型性能评估,比较融合模型与各模型的性能,以得到AI 模型。
示例性地,如图2所示,图2是图1中S104的具体实现流程图。由图2可知,在本实施例中,S104包括S1041至S1043。详述如下:
S1041,基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,根据各个模型的各预设评价指标的第一测试结果,从各个模型中选取部分模型进行融合处理,得到融合模型。
S1042,基于所述测试样本集对所述融合模型的各预设评价指标进行测试,得到第二测试结果。
S1043,根据所述第一测试结果和所述第二测试结果,从训练之后的各个模型或所述融合模型中选取所述AI模型。
其中,第一测试结果和第二测试结果分别包括各预设评价指标的变化率。模型性能较好时对应的各预设评价指标的值区域稳定,各预设评价指标的变化率小于预设变化阈值。在本实施例中,根据比较第一测试结果和第二测试结果的大小,从第一测试结果和第二测试结果中确定出各预设评价指标的变化率最小的各预设评价指标对应的模型作为所述AI模型。
可以理解地,在基于所述训练样本集对选取的各个待训练模型进行训练,基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型之后,还包括:
实时监测当前业务场景下的AI模型的各预设评价指标,若在当前业务场景下所述AI模型的任意预设评价指标的变化率超过预设变化阈值,则发出预警提示信息。以确保能够及时发现畸变或性能不稳定的模型,保证追踪模型的效果。
通过上述分析可知,本申请实施例提供的AI模型生成方法,通过响应于用户基于场景变量分析报告输入的第一目标参数,获取目标变量阈值范围内的目标变量;根据目标变量对总体样本进行抽样处理,得到抽样样本;对抽样样本进行数据预处理,得到训练样本集和测试样本集;并根据用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型;通过该训练样本集对选取的各个待训练模型进行训练,基于测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型。能够根据场景变量分析报告确定目标变量阈值范围和目标变量之后,根据目标变量对总体样本进行抽样处理,得到抽样样本,并进一步对抽样样本进行数据预处理,实现根据业务场景选择的待训练模型进行训练及测试,得到能够满足当前业务场景的AI模型,并能保证模型的有效性。
请参阅图3所示,图3是本申请另一实施例提供的AI模型生成方法的示意流程图。由图3可知,本实施例与图1所示实施例相比,S304至S308与S101至S105的具体实现过程相同,不同之处在于,在S304之前还包括S301与S303,S303与S304为顺序执行关系。详述如下:
S301、根据当前业务场景获取预设类型的备选变量,对各预设类型的备选变量进行变量区分度分析,确定出目标变量。
其中,电子设备中存储有各业务场景下解决相关问题需要的备选变量。各备选变量分别与业务场景相对应。对各预设类型的备选变量进行变量区分度分析,包括:根据当前业务场景进行目标变量的定义;基于目标变量的定义对备选变量进行变量区分度分析,例如采用vintage分析算法对备选变量进行变量区分度分析,分析在不同的目标变量定义下,样本在观察期和表现期的分布情况,基于样本在观察期和表现期的分布情况,从备选变量中确定出目标变量。
例如,采用vintage分析算法对影响金融领域的客群迁移问题的目标变量进行分析。具体可以从目标变量对客群的某些维度,例如客群的交易金额、资产、交易笔数、信用额度等维度在观察期和表现期的迁移情况影响,分析出不同的目标变量对客群迁移的影响,从而确定出当前业务场景下所需要的目标变量。
S302、对所述目标变量进行风险平衡分析,确定所述目标变量的目标阈值。
在一实施例中,在确定出目标变量之后,需要确定目标变量的目标阈值。例如,同样以金融领域的客群迁移问题为例,在确定了目标变量之后,可以采用风险平衡分析算法,例如rollrate分析算法,计算选取不同数量的目标变量对客户滚动率的影响,根据客户滚动率的分布情况,可以确定目标变量的目标阈值。例如当目标变量的目标阈值定为10000时,根据客户滚动率分布情况可以确定有100个好客户;当目标变量的目标阈值定为12000时,根据客户滚动率分布情况确定有98个好客户。本申请的目标是选取滚动率开始趋于稳定时对应的目标变量的数量作为目标阈值。该目标阈值和滚动率波动时对应的目标变量的数量有区分度。通过对目标变量阈值的确定,可以有效保证选取适量的样本数,来保证模型的训练效率。为AI模型的进一步建立做好铺垫。
S303、将所述第一目标参数、所述目标变量和所述目标阈值关联存储,生成所述业务变量分析报告。
S304、响应于用户基于场景变量分析报告输入的第一目标参数,根据所述第一目标参数获取目标变量阈值范围内的目标变量。
S305、根据所述目标变量对总体样本进行抽样处理,得到抽样样本。
S306、对所述抽样样本进行数据预处理,得到训练样本集和测试样本集。
S307、响应于用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型。
S308、基于所述训练样本集对选取的各个待训练模型进行训练,基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型。
通过上述分析可知,本申请实施例提供的AI模型生成方法,通过AI模型生成方法、电子设备及存储介质,通过响应于用户基于场景变量分析报告输入的第一目标参数,获取目标变量阈值范围内的目标变量;根据目标变量对总体样本进行抽样处理,得到抽样样本;对抽样样本进行数据预处理,得到训练样本集和测试样本集;并根据用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型;通过该训练样本集对选取的各个待训练模型进行训练,基于测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型。能够根据场景变量分析报告确定目标变量阈值范围和目标变量,并对目标变量进行数据预处理后,对根据业务场景选择的待训练模型进行训练及测试,得到能够满足当前业务场景的AI模型,并能保证模型的有效性。
请参阅图4,图4是本申请实施例提供的AI模型生成装置的结构示意图,该AI模型生成装置用于执行图1所示的AI模型生成方法。该AI模型生成装置可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、可穿戴式设备或机器人等。
如图4所示,AI模型生成装置400包括:
第一获取模块401,用于响应于用户基于场景变量分析报告输入的第一目标参数,根据所述第一目标参数获取目标变量阈值范围内的目标变量;
抽样模块402,用于根据所述目标变量对总体样本进行抽样处理,得到抽样样本;
第一得到模块403,用于对所述抽样样本进行数据预处理,得到训练样本集和测试样本集;
选取模块404,用于响应于用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型;
第二得到模块405,用于基于所述训练样本集对选取的各个待训练模型进行训练,基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型。
在一实施例中,还包括:
第二获取模块,用于对所述目标变量进行分层抽样处理,获取抽样样本;
输出模块,用于对所述抽样样本进行数据有效性校验,输出校验结果报告。
在一实施例中,输出模块,具体用于:
校验所述抽样样本与所述总体样本在预设指标维度上的分布一致性,根据所述抽样样本与所述总体样本在预设指标维度上的分布一致性,生成所述校验结果报告并输出。
在一实施例中,第一得到模块,具体用于:
响应于用户基于所述校验结果报告触发的数据预处理指令,对所述抽样样本进行数据预处理,得到所述训练样本和所述测试样本集。
在一实施例中,第一得到模块,具体用于:
对所述目标变量进行数据填充和/或数据异常处理,对经数据填充和/或数据异常处理之后的样本进行衍生处理,得到目标样本集;
将所述目标样本集划分为训练样本集和测试样本集。
在一实施例中,还包括:
第一确定模块,用于根据当前业务场景获取预设类型的备选变量,对各预设类型的备选变量进行变量区分度分析,确定出目标变量;
第二确定模块,用于对所述目标变量进行风险平衡分析,确定所述目标变量的目标阈值;
生成模块,用于将所述第一目标参数、所述目标变量和所述目标阈值关联存储,生成所述业务变量分析报告。
在一实施例中,第三得到模块,具体用于:
基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,根据各个模型的各预设评价指标的第一测试结果,从各个模型中选取部分模型进行融合处理,得到融合模型;
基于所述测试样本集对所述融合模型的各预设评价指标进行测试,得到第二测试结果;
根据所述第一测试结果和所述第二测试结果,从训练之后的各个模型或所述融合模型中选取所述AI模型。
在一实施例中,还包括:
检测模块,用于实时监测当前业务场景下的AI模型的各预设评价指标,若在当前业务场景下所述AI模型的任意预设评价指标的变化率超过预设变化阈值,则发出预警提示信息。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的AI模型生成装置和各模块的具体工作过程,可以参考图1所述的AI模型生成方法实施例中的对应过程,在此不再赘述。
上述的AI模型生成方法可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的装置上运行。
请参阅图5,图5是本申请实施例提供的电子设备的结构示意性框图。该电子设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种AI模型生成方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种AI模型生成方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元 (Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
响应于用户基于场景变量分析报告输入的第一目标参数,根据所述第一目标参数获取目标变量阈值范围内的目标变量;
根据所述目标变量对总体样本进行抽样处理,得到抽样样本;
对所述抽样样本进行数据预处理,得到训练样本集和测试样本集;
响应于用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型;
基于所述训练样本集对选取的各个待训练模型进行训练,基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型。
在一实施例中,在所述响应于用户基于业务变量分析报告输入的当前业务场景下的第一目标参数,根据所述第一目标参数获取预设数量的目标变量之后,还包括:
对所述目标变量进行分层抽样处理,获取抽样样本;
对所述抽样样本进行数据有效性校验,输出校验结果报告。
在一实施例中,所述对所述抽样样本进行数据有效性校验,输出校验结果报告,包括:
校验所述抽样样本与所述总体样本在预设指标维度上的分布一致性,根据所述抽样样本与所述总体样本在预设指标维度上的分布一致性,生成所述校验结果报告并输出。
在一实施例中,所述对所述抽样样本进行数据预处理,得到训练样本集和测试样本集,包括:
响应于用户基于所述校验结果报告触发的数据预处理指令,对所述抽样样本进行数据预处理,得到所述训练样本和所述测试样本集。
在一实施例中,所述对所述抽样样本进行数据预处理,得到所述训练样本和所述测试样本集,包括:
对所述抽样样本进行数据填充和/或数据异常处理,对经数据填充和/或数据异常处理之后的样本进行衍生处理,得到目标样本集;
将所述目标样本集划分为训练样本集和测试样本集。
在一实施例中,在所述响应于用户基于场景变量分析报告输入的第一目标参数之前,还包括:
根据当前业务场景获取预设类型的备选变量,对各预设类型的备选变量进行变量区分度分析,确定出目标变量;
对所述目标变量进行风险平衡分析,确定所述目标变量的目标阈值;
将所述第一目标参数、所述目标变量和所述目标阈值关联存储,生成所述业务变量分析报告。
在一实施例中,所述基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型,包括:
基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,根据各个模型的各预设评价指标的第一测试结果,从各个模型中选取部分模型进行融合处理,得到融合模型;
基于所述测试样本集对所述融合模型的各预设评价指标进行测试,得到第二测试结果;
根据所述第一测试结果和所述第二测试结果,从训练之后的各个模型或所述融合模型中选取所述AI模型。
在一实施例中,在基于所述训练样本集对选取的各个待训练模型进行训练,基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型之后,还包括:
实时监测当前业务场景下的AI模型的各预设评价指标,若在当前业务场景下所述AI模型的任意预设评价指标的变化率超过预设变化阈值,则发出预警提示信息。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请图1所示实施例提供的AI模型生成方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (5)
1.一种AI模型生成方法,其特征在于,所述方法包括:
根据当前业务场景获取预设类型的备选变量,对各预设类型的备选变量进行变量区分度分析,确定出目标变量;
对所述目标变量进行风险平衡分析,确定所述目标变量的目标阈值;
将第一目标参数、所述目标变量和所述目标阈值关联存储,生成业务变量分析报告;
响应于用户基于业务变量分析报告输入的第一目标参数,根据所述第一目标参数和各目标变量以及目标变量阈值之间的关联关系,确定当前业务场景下的目标变量和目标变量阈值,获取所述目标变量阈值范围内的目标变量,其中,第一目标参数为预定义的与业务场景具有映射关系的参数,所述目标变量阈值为使对应业务场景下客户滚动率趋于稳定时对应目标变量的数量;
根据所述目标变量对总体样本基于预设的抽样函数进行分层抽样处理,得到抽样样本;
校验所述抽样样本与所述总体样本在预设指标维度上的分布一致性,根据所述抽样样本与所述总体样本在预设指标维度上的分布一致性,生成校验结果报告并输出;
响应于用户基于所述校验结果报告触发的数据预处理指令,对所述抽样样本进行数据预处理,得到训练样本集和测试样本集;
响应于用户基于业务场景输入的第二目标参数,选取至少一个预设的待训练模型,其中,第二目标参数为预设的代表当前业务场景下需要解决的分类问题的参数;
基于所述训练样本集对选取的各个待训练模型进行训练,基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,根据各个模型的各预设评价指标的第一测试结果,从各个模型中选取部分模型进行融合处理,得到融合模型;
基于所述测试样本集对所述融合模型的各预设评价指标进行测试,得到第二测试结果;
根据所述第一测试结果和所述第二测试结果,从训练之后的各个模型或所述融合模型中选取所述AI模型。
2.根据权利要求1所述的AI模型生成方法,其特征在于,所述对所述抽样样本进行数据预处理,得到训练样本集和测试样本集,包括:
对所述抽样样本进行数据填充和/或数据异常处理,对经数据填充和/或数据异常处理之后的样本进行衍生处理,得到目标样本集;
将所述目标样本集划分为训练样本集和测试样本集。
3.根据权利要求2所述AI模型生成方法,其特征在于,在基于所述训练样本集对选取的各个待训练模型进行训练,基于所述测试样本集对训练之后的各个模型的预设评价指标进行测试,得到AI模型之后,还包括:
实时监测当前业务场景下的AI模型的各预设评价指标,若在当前业务场景下所述AI模型的任意预设评价指标的变化率超过预设变化阈值,则发出预警提示信息。
4.一种AI模型生成设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至3中任一项所述的AI模型生成方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至3中任一项所述的AI模型生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110465637.8A CN112884092B (zh) | 2021-04-28 | 2021-04-28 | Ai模型生成方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110465637.8A CN112884092B (zh) | 2021-04-28 | 2021-04-28 | Ai模型生成方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112884092A CN112884092A (zh) | 2021-06-01 |
CN112884092B true CN112884092B (zh) | 2021-11-02 |
Family
ID=76040205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110465637.8A Active CN112884092B (zh) | 2021-04-28 | 2021-04-28 | Ai模型生成方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112884092B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408601B (zh) * | 2021-06-10 | 2024-06-18 | 共达地创新技术(深圳)有限公司 | 模型生成方法、电子设备及存储介质 |
CN113807211A (zh) * | 2021-08-31 | 2021-12-17 | 武汉理工大学 | 设备运行状态预警方法、计算机设备及存储介质 |
CN115767569A (zh) * | 2021-09-02 | 2023-03-07 | 中国移动通信集团广东有限公司 | 业务预测方法和装置、电子设备及可读存储介质 |
CN113742193A (zh) * | 2021-09-13 | 2021-12-03 | 上海晓途网络科技有限公司 | 一种数据分析方法、装置、电子设备及存储介质 |
CN113837863B (zh) * | 2021-09-27 | 2023-12-29 | 上海冰鉴信息科技有限公司 | 一种业务预测模型创建方法、装置及计算机可读存储介质 |
CN116151601A (zh) * | 2021-11-15 | 2023-05-23 | 中兴通讯股份有限公司 | 一种流业务建模方法、装置、平台、电子设备和存储介质 |
CN114334092B (zh) * | 2021-12-22 | 2023-04-07 | 四川大学华西医院 | 医用影像ai模型的管理方法及设备 |
CN116418686A (zh) * | 2021-12-31 | 2023-07-11 | 华为技术有限公司 | 模型的数据处理方法及装置 |
CN115034400B (zh) * | 2022-04-21 | 2024-05-14 | 建信金融科技有限责任公司 | 一种业务数据处理方法、装置、电子设备及存储介质 |
CN115936744A (zh) * | 2022-11-01 | 2023-04-07 | 北京创景数科信息技术有限公司 | 智能化客户生命周期管理AiCRM系统及方法 |
CN117932286A (zh) * | 2024-03-25 | 2024-04-26 | 广东中拓华盛信息科技有限公司 | 一种液位计测量数据校准方法、系统及电子设备 |
CN118195770B (zh) * | 2024-05-20 | 2024-07-30 | 恒丰银行股份有限公司 | 一种企业财务数据真实性的校验方法、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10009358B1 (en) * | 2014-02-11 | 2018-06-26 | DataVisor Inc. | Graph based framework for detecting malicious or compromised accounts |
CN109241669A (zh) * | 2018-10-08 | 2019-01-18 | 成都四方伟业软件股份有限公司 | 一种自动建模方法、装置及其存储介质 |
CN109389143A (zh) * | 2018-06-19 | 2019-02-26 | 北京九章云极科技有限公司 | 一种数据分析处理系统及自动建模方法 |
CN112508723A (zh) * | 2021-02-05 | 2021-03-16 | 北京淇瑀信息科技有限公司 | 基于自动择优建模的金融风险预测方法、装置和电子设备 |
-
2021
- 2021-04-28 CN CN202110465637.8A patent/CN112884092B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10009358B1 (en) * | 2014-02-11 | 2018-06-26 | DataVisor Inc. | Graph based framework for detecting malicious or compromised accounts |
CN109389143A (zh) * | 2018-06-19 | 2019-02-26 | 北京九章云极科技有限公司 | 一种数据分析处理系统及自动建模方法 |
CN109241669A (zh) * | 2018-10-08 | 2019-01-18 | 成都四方伟业软件股份有限公司 | 一种自动建模方法、装置及其存储介质 |
CN112508723A (zh) * | 2021-02-05 | 2021-03-16 | 北京淇瑀信息科技有限公司 | 基于自动择优建模的金融风险预测方法、装置和电子设备 |
Non-Patent Citations (5)
Title |
---|
基于模型融合的互联网信贷信用风险预测研究;费鸿雁等;《统计学与应用》;20191031;第8卷(第5期);第823-834页 * |
数据分析之风控;南风寄语;《简书-https://www.jianshu.com/p/e3afa0341dd5#comments》;20200105;第1-6页 * |
机器学习中检验样本抽样的均匀——KL散度检验和K-S检验;a790209714;《开发者知识库-https://www.itdaan.com/blog/2017/09/26/c194e1b3233ec97919676e2370b2981e.html》;20170926;第1-5页 * |
融360 | 自动化特征工程和自动建模在风控场景的应用;Python数据科学银行风控建模;《腾讯云-https://cloud.tencent.com/developer/article/1468675》;20190722;第1-10页 * |
风控模型目标变量定义全接触(A/B/C/F卡);番茄风控大数据;《知乎-https://zhuanlan.zhihu.com/p/144666372》;20200530;第1-6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112884092A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112884092B (zh) | Ai模型生成方法、电子设备及存储介质 | |
CN109636607B (zh) | 基于模型部署的业务数据处理方法、装置和计算机设备 | |
CN108876133B (zh) | 基于业务信息的风险评估处理方法、装置、服务器和介质 | |
US11775412B2 (en) | Machine learning models applied to interaction data for facilitating modifications to online environments | |
CN110442712B (zh) | 风险的确定方法、装置、服务器和文本审理系统 | |
US11934290B2 (en) | Interactive model performance monitoring | |
CN110489630B (zh) | 资源数据的处理方法、装置、计算机设备和存储介质 | |
CN108268624B (zh) | 用户数据可视化方法及系统 | |
CN115174231B (zh) | 一种基于AI Knowledge Base的网络欺诈分析方法及服务器 | |
CN112801800A (zh) | 行为资金分析系统、方法、计算机设备及存储介质 | |
CN111428572A (zh) | 信息处理方法、装置、电子设备和介质 | |
CN110349013A (zh) | 风险控制方法及装置 | |
CN112085078A (zh) | 图像分类模型生成系统、方法、装置和计算机设备 | |
CN114004700A (zh) | 业务数据处理方法、装置、电子设备及存储介质 | |
CN112634017A (zh) | 远程开卡激活方法、装置、电子设备及计算机存储介质 | |
CN111767192A (zh) | 基于人工智能的业务数据检测方法、装置、设备和介质 | |
CN117033039A (zh) | 故障检测方法、装置、计算机设备和存储介质 | |
Khokhlov et al. | Data security and quality evaluation framework: Implementation empirical study on android devices | |
CN110865939B (zh) | 应用程序质量监测方法、装置、计算机设备和存储介质 | |
US20240062117A1 (en) | System and Method for Examining Data from a Source | |
CN114490361A (zh) | 测试脚本质量获取方法、装置、计算机设备和存储介质 | |
CN116795705A (zh) | 异常节点的确定方法、装置和计算机设备 | |
CN116993218A (zh) | 基于人工智能的指标分析方法、装置、设备及存储介质 | |
CN114625753A (zh) | 预警模型监测方法、装置、计算机设备、介质和程序产品 | |
Tsaryov et al. | THE METHOD OF SELECTING A HARDWARE-SOFTWARE IоT-PLATFORM TAKING TO ACCOUNT THE FACTORS OF FUNCTIONALITY AND COST |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |