CN108170909B - 一种智能建模的模型输出方法、设备及存储介质 - Google Patents
一种智能建模的模型输出方法、设备及存储介质 Download PDFInfo
- Publication number
- CN108170909B CN108170909B CN201711331557.3A CN201711331557A CN108170909B CN 108170909 B CN108170909 B CN 108170909B CN 201711331557 A CN201711331557 A CN 201711331557A CN 108170909 B CN108170909 B CN 108170909B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- processed data
- task flow
- model training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种智能建模的模型输出方法、设备及存储介质,预先建立用于作为模型训练输入因子的模型因子库;获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果;若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果。本申请中部署了由SMP标准建模流程所训练得到的模型训练结果,当模型因子库因子、查勘任务流被模型部署平台接收时,直接由模型训练结果进行案件风险评分,而且已经部署在模型部署平台中的函数可以随时优化迭代。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种智能建模的模型输出方法、设备及存储介质。
背景技术
目前,财产保险行业中在建模时,缺乏一套标准化的智能建模实时部署系统,市面上的产品往往只单独具备ETL(Extract-Transform-Load,即数据仓库技术,用来描述将数据从来源端经过抽取、转换、加载至目的端的过程)、训练模型中的某类功能,不能覆盖全流程。现有技术中的建模存在以下问题:外采使用场景受限(也就是不接地气)、外采成本高、耗时长、数据源单一、不开源、支持算法少、效能衰减大、IT依赖度高、灵活性低、模型上线慢、维护成本高、交接不全、IT排期困难、无法统一建模流程、建模人员易流失、无法快速更新迭代、且不成体系。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足之处,本申请的目的在于提供一种智能建模的模型输出方法、设备及存储介质,旨在解决现有技术中无法统一建模流程、无法快速更新迭代、且不成体系的问题。
为了达到上述目的,本申请采取了以下技术方案:
一种智能建模的模型输出方法,其中,所述方法包括以下步骤:
预先建立用于作为模型训练输入因子的模型因子库;
获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果;其中,预先设置的建模流程包括宽表搭建、数据探索、显著性分析、变量分箱、相关性分析、模型训练、模型测试、模型效果评价、及模型监控;
若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果。
所述智能建模的模型输出方法,其中,所述获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果的步骤,包括:
将历史数据进行宽表搭建,得到第一处理数据;
将第一处理数据进行数据探索,得到第二处理数据;
将第二处理数据进行显著性分析,得到第三处理数据;
将第三处理数据进行变量分箱,得到第四处理数据;
将第四处理数据进行相关性分析,得到第五处理数据;
将第五处理数据进行模型训练,得到第六处理数据;
将第六处理数据进行模型测试,得到第七处理数据;
将第七处理数据进行模型效果评价,得到第八处理数据;
将第八处理数据进行模型监控,得到模型训练结果。
所述智能建模的模型输出方法,其中,所述将第八处理数据进行模型监控,得到模型训练结果的步骤之后,还包括:
将所述模型训练结果发送至模型部署平台进行存储。
所述智能建模的模型输出方法,其中,所述若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果的步骤,包括:
接收查勘任务流,并接收调用函数请求;
获取查勘任务流对应的案件数据,通过Shell脚本调用Python进程;
获取模型因子库中被选中的模型因子;
在Python进程中将模型因子库中被选中的模型因子、查勘任务流对应案件数据作为模型训练结果的输入,进行函数运算,得到与查看任务流对应的评分结果。
所述智能建模的模型输出方法,其中,所述在Python进程中将模型因子库中被选中的模型因子、查勘任务流对应案件数据作为模型训练结果的输入,进行函数运算,得到与查看任务流对应的评分结果的步骤,还包括:
将模型因子库中被选中的模型因子的权重、及查勘任务流所对应案件数据的权重值按降序排序时,排名位于指定位数之前的模型因子和/或查勘任务流所对应案件数据进行显示。
所述智能建模的模型输出方法,其中,所述若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果的步骤之后,还包括:
判断评分结果是否超出预设的评分阈值;
当评分结果超出评分阈值,则进行调查提示;
当评分结果未超出评分阈值,则进行理赔核算。
所述智能建模的模型输出方法,其中,所述模型训练结果为函数。
一种智能建模的模型输出设备,其中,所述智能建模的模型输出设备包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的智能建模的模型输出程序,以实现以下步骤:
预先建立用于作为模型训练输入因子的模型因子库;
获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果;其中,预先设置的建模流程包括宽表搭建、数据探索、显著性分析、变量分箱、相关性分析、模型训练、模型测试、模型效果评价、及模型监控;
若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果。
所述智能建模的模型输出设备,其中,所述获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果的步骤,包括:
将历史数据进行宽表搭建,得到第一处理数据;
将第一处理数据进行数据探索,得到第二处理数据;
将第二处理数据进行显著性分析,得到第三处理数据;
将第三处理数据进行变量分箱,得到第四处理数据;
将第四处理数据进行相关性分析,得到第五处理数据;
将第五处理数据进行模型训练,得到第六处理数据;
将第六处理数据进行模型测试,得到第七处理数据;
将第七处理数据进行模型效果评价,得到第八处理数据;
将第八处理数据进行模型监控,得到模型训练结果。
一种存储介质,其中,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现所述智能建模的模型输出方法的步骤。
本申请提供的智能建模的模型输出方法、设备及存储介质,预先建立用于作为模型训练输入因子的模型因子库;获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果;若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果。本申请中部署了由SMP标准建模流程所训练得到的模型训练结果,当模型因子库因子、查勘任务流被模型部署平台接收时,直接由模型训练结果进行案件风险评分,而且已经部署在模型部署平台中的函数可以随时优化迭代。
附图说明
图1为本申请所述的智能建模的模型输出方法较佳实施例的流程图;
图2为本申请所述的智能建模的模型输出方法具体实施例中步骤S200的流程图;
图3为本申请所述的智能建模的模型输出方法具体实施例中步骤S300的流程图;
图4为本申请所述的智能建模的模型输出程序较佳实施例的运行环境示意图;
图5为本申请所述的智能建模的模型输出程序较佳实施例的功能模块图。
具体实施方式
本申请提供一种智能建模的模型输出方法、设备及存储介质,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
请参阅图1,是本申请所述的智能建模的模型输出方法较佳实施例的流程图。如图1所示,所述智能建模的模型输出方法,包括以下步骤:
步骤S100、预先建立用于作为模型训练输入因子的模型因子库。
本实施例中,所述模型因子库中包括主键信息、风险主体、时间维度及搭载环境;其中,所述主键信息包括身份证号、电话号、车牌号、及保单号;所述风险主体包括被保险人、投保人、行驶证车主、标的驾驶员、三者驾驶员、伤者、报案来电、标的车牌、及保单号;所述时间维度包括3个月、半年、1年、及2年;所述搭载环境包括分布式构架的Hadoop平台、及实时调用的Oracle数据库。
这些模型因子是根据大数据总结出来的,其可以是存储在专门用于存储因子库的一台机器上,以供在模型训练或模型输出计算过程中被调用,模型因子库中的模型因子能定期输出高频异常的风险主体;还能直接作为建模的因子,减少建模耗时;还能作为理赔维度的主体风险因子,支持用户画像项目;还能日常分析需要,可以直接查询,确保了处理效率。
由于用户在报案的过程中,上报给后台的数据信息是有限的,如报案时间、报案人姓名、报案类型,但是仅仅基于这些信息输入到模型训练结果当做输入因子时,对于评分结果的输出可能会有影响,导致输出的评分不太准确。故为了更精准的输出评分结果,则除了获取报案过程中上报的案件数据,还需智能的根据报案数据从模型因子库中选择对应的模型因子,将模型因子和报案数据共同作为模型训练结果的输入,以更准确的评分结果。
为了实现更准确的输出评分结果,则在进行模型训练时,就需要输入大量的样本数据,如“张三、车牌XXXXXX、133XXXXXXXX、保单号XXXXX、投保年限1年、投保数据调用Oracle数据库”,……,“王五、车牌XYYXXX、134XXXXXXXX、保单号YYYXX、投保年限2年、投保数据调用Hadoop平台”,当搜集了投保样本数据或是投保历史数据后,让计算机学习如何输出判断规则就是一种训练过程。训练完成后,就将模型训练结果作为模型(如y=ax1+ bx2等简单或复杂的业务函数),该模型就能智能的根据输入数据来准确输出评分结果(可以理解成模型训练所训练的是模型里的参数,模型是一个从输入到输出的黑盒子,训练是为了让这个黑盒子更适应当前的任务)。
步骤S200、获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果;其中,预先设置的建模流程包括宽表搭建、数据探索、显著性分析、变量分箱、相关性分析、模型训练、模型测试、模型效果评价、及模型监控。
本实施例中,得到模型训练结果为函数,如y=ax1+ bx2等简单或复杂的业务函数。为了实现标准化的输入因子,则需对历史数据进行宽表搭建、数据探索、显著性分析、变量分箱、相关性分析、模型训练、模型测试、模型效果评价、及模型监控这9个步骤的标准建模流程,实现对历史数据的训练,从而得到模型训练结果。
本实施例中,模型训练结果(模型训练结果可视为一种模型,如深度卷积神经网络模型、逻辑回归模型等)是通过模型训练得来,当将模型因子、及当前案件数据进行初始处理后作为模型训练结果的输入,就能快速输出评分结果,从而根据评分结果快速的对案件数据(案件数据可以是车险报案案件数据、人身险报案案件数据等各险种报案案件数据)是否存在欺诈进行判断。
模型训练常用的方式有逻辑回归模型,逻辑回归模型简称为LR模型,是一个被广泛应用在实际场景中的算法。在确定使用LR模型并且选定了初始特征集,那么下一步就是如何获取最佳的评估参数,使得训练得到的LR模型可以获得最佳的分类效果。具体过程中,常使用损失函数(loss function)或者代价函数(cost function)来计算由LR模型得到的预测结果与真实值得匹配程度。
在本实施例中,逻辑回归模型的原理揭露如下:
逻辑回归是一种判别模型,表现为直接对条件概率P(y|x)建模,而不关心背后的数据分布P(x,y)。而高斯贝叶斯模型(Gaussian Naive Bayes)是一种生成模型,先对数据的联合分布建模,再通过贝叶斯公式来计算样本属于各个类别的后验概率,即:
\(p(y|x) = \frac{P(x|y)P(y)}{\sum{P(x|y)P(y)}}\)
通常假设P(x|y)是高斯分布,P(y)是多项式分布,相应的参数都可以通过最大似然估计得到。如果我们考虑二分类问题,通过简单的变化可以得到:
如果 \( \sigma_1 = \sigma_0 \),二次项会抵消,我们得到一个简单的线性关系:\(\log\frac{P(y=1|x)}{P(y=0|x)} = \theta^T x\)。
由上式进一步可以得到:\(P(y=1|x) = \frac{e^{\theta^Tx}}{1+e^{\theta^Tx}} = \frac{1}{1+e^{-\theta^T x}} \)。
可以看到,这个概率和逻辑回归中的形式是一样的。这种情况下GNB 和 LR 会学习到同一个模型。实际上,在更一般的假设(P(x|y)的分布属于指数分布族)下,我们都可以得到类似的结论。
如果 (y)不是在[0,1]中取值,而是在\(K\)个类别中取值,这时问题就变为一个多分类问题。有两种方式可以出处理该类问题:一种是我们对每个类别训练一个二元分类器(One-vs-all),当\(K\)个类别不是互斥的时候,比如用户会购买哪种品类,这种方法是合适的。如果\(K\)个类别是互斥的,即 \(y = i\) 的时候意味着 \(y\) 不能取其他的值,比如用户的年龄段,这种情况下 Softmax 回归更合适一些。Softmax 回归是直接对逻辑回归在多分类的推广,相应的模型也可以叫做多元逻辑回归(Multinomial LogisticRegression)。模型通过 softmax 函数来对概率建模,具体形式如下:
\(P(y=i|x, \theta) = \frac{e^{\theta_i^T x}}{\sum_j^K{e^{\theta_j^Tx}}}\);
而决策函数为:\(y^* = \textrm{argmax}_i P(y=i|x,\theta)\);
对应的损失函数为:\(J(\theta) = -\frac{1}{N} \sum_i^N \sum_j^K {1[y_i=j] \log{\frac{e^{\theta_i^T x}}{\sum {e^{\theta_k^T x}}}}}\)
类似的,也可以通过梯度下降或其他高阶方法来求解该问题,这里不再赘述。
在一个实施例中,如图2所示,所述步骤S200包括:
步骤S201、将历史数据进行宽表搭建,得到第一处理数据。
其中,宽表通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。将历史数据进行宽表搭建的处理后,就得到第一处理数据。
步骤S202、将第一处理数据进行数据探索,得到第二处理数据。
数据探索,就是通过检验数据集的数据质量、绘制图表、计算某些指定特征量等手段,对样本数据集的结构和规律进行分析的过程,具体过程一般如下:变量的识别、单变量的分析、双变量的分析、处理缺失值、处理异常值、特征提取(Feature Engineering)。将第一处理数据进行数据探索,得到第二处理数据。
步骤S203、将第二处理数据进行显著性分析,得到第三处理数据。
统计上的显著性通常用p来衡量,p的含义是在零假设H0成立的条件下,得到比实际测量所得的数据更加极端的数据(D)的概率,也就是p(D | H0。显著性分析也即显著性检测,也就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。将第二处理数据进行显著性分析,得到第三处理数据。
步骤S204、将第三处理数据进行变量分箱,得到第四处理数据。
常用的数据分箱方法有:1.无监督分箱,其中无监督分箱又包括(1)等宽分箱:(2)等频分箱;(3)基于k均值聚类的分箱。2.有监督分箱,其中有监督分箱在分箱时考虑因变量的取值,使得分箱后达到最小熵(minimumentropy)或最小描述长度。将第三处理数据进行变量分箱,得到第四处理数。
步骤S205、将第四处理数据进行相关性分析,得到第五处理数据。
相关性分析,是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性分析具体有:(1)图表相关分析(2)协方差及协方差矩阵分析等方法。将第四处理数据进行相关性分析,得到第五处理数据。
步骤S206、将第五处理数据进行模型训练,得到第六处理数据。
模型训练的常见方法有:逻辑回归模型训练等。更具体的,逻辑回归模型(LogicRegression, LR),以下简称为LR模型,是一个被广泛应用在实际场景中的算法。在确定使用LR模型并且选定了初始特征集,那么下一步就是如何获取最佳的评估参数,使得训练得到的LR模型可以获得最佳的分类效果。具体过程中,常使用损失函数(loss function)或者代价函数(cost function)来计算由LR模型得到的预测结果与真实值得匹配程度。
步骤S207、将第六处理数据进行模型测试,得到第七处理数据。
其中,模型测试,是对模型的正确性进行测试。将第六处理数据进行模型测试,即可得到第七处理数据。
步骤S208、将第七处理数据进行模型效果评价,得到第八处理数据。
其中,模型效果评价,可用受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve),也即常说的ROC曲线来进行评价。将第七处理数据进行模型效果评价,即可得到第八处理数据。
步骤S209、将第八处理数据进行模型监控,得到模型训练结果。
模型监控的常见方法有:基于偏最小二乘法的遗传模拟退火算法等。
通过上述9个步骤完成了对历史数据的训练,得到了一个模型训练结果(也就是模型的参数,模型的参数用来作为模型因子及案件数据的运算函数)。
在一个实施例中,步骤S209之后还包括:
步骤S210、将所述模型训练结果发送至模型部署平台进行存储。
其中,模型因子库可以是存储在专门用于存储因子库的一台机器上,也可以是与模型部署平台位于同一台机器上。模型部署平台中部署的这些模型训练结果,可以视为各险种的风险测评函数。由于每一种模型训练结果是该模型对应险种的历史数据完成训练后而得到,并在训练完成后实施存储并部署在模型部署平台,模型部署平台实现了模型训练结果的云平台的效果。这样,后续若有类似险种的案件数据时,直接可以应用部署在模型部署平台的模型训练结果,实现了数据快速交互和运算。
步骤S300、若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果。
本实施例中,当接收由参数录入系统所传输的案件数据,并选择“驾驶员酒驾”场景,则模型因子库根据速所选择的场景在模型因子库中选择出符合“驾驶员酒驾”场景的模型因子,如“身份证号”、“投保时限1年”。
将案件数据和根据车险理赔场景对应适配选择模型因子输入模型训练结果进行处理后输出适用于该场景的评分结果。例如模型训练结果的函数表达式为y=a1x1+ a2x2+a3x3+ a4x4+ a5x5;身份证号对应参数值x1为1,身份证号对应权重因子a1为0.1,投保时限1年对应参数值x2为2,投保时限1年对应权重因子a2为0.1,报案时间对应参数值x3为3,报案时间对应权重因子a3为0.2,报案人姓名对应参数值x4为4,报案类型对应权重因子a4为0.3,报案类型对应参数值x5为1,报案类型对应权重因子a5为0.3,则评分结果=0.1*1+0.1*2+0.2*3+0.3*4+0.3*1=2.4。通过模型训练结果,就能迅速的得到关于输入因子的评分,能对理赔流程提供评判依据。
在一个实施例中,如图3所示,所述步骤S300包括:
步骤S301、接收查勘任务流,并接收调用函数请求;
步骤S302、获取查勘任务流对应的案件数据,通过Shell脚本调用Python进程;
步骤S303、获取模型因子库中被选中的模型因子;
步骤S304、在Python进程中将模型因子库中被选中的模型因子、查勘任务流对应案件数据作为模型训练结果的输入,进行函数运算,得到与查看任务流对应的评分结果。
本实施例中,以理赔系统为例来说明,理赔系统向模型部署平台发送查勘任务流(如该查勘任务流包括178个参数)并发起调用函数请求;模型部署平台接收查勘任务流对应的参数,通过Shell脚本调用Python进程;获取模型因子库因子并根据模型因子库因子、查勘任务流以及模型部署平台中所接收的模型训练结果进行案件风险评分,得到模型评分(也即评分结果)。
其中,Shell脚本是利用shell的功能所写的一个程序,这个程序是使用纯文本文件,将一些shell的语法与指令写在里面,然后用正规表示法,管道命令以及数据流重导向等功能,以达所想要的处理目的。Python提供了实用的多进程包multiprocessing,只需要定义一个函数,Python会完成其他所有事情。借助这个多进程包,可以轻松完成从单进程到并发执行的转换。通过Shell脚本调用Python进程中的多进程包multiprocessing,即可进一步执行步骤S303和步骤S304。
在一个实施例中,所述步骤S304还包括:将模型因子库中被选中的模型因子的权重、及查勘任务流所对应案件数据的权重值按降序排序时,排名位于指定位数之前的模型因子和/或查勘任务流所对应案件数据进行显示。
本实施中,在例如显示名位于指定位数之前的模型因子和/或查勘任务流所对应案件数据,可显示3个变量,也可以是任意多个,这里显示的数量可以自定义,同时还可以为案件风险评分影响最重要的几个变量添加对应的业务提示。
在一个实施例中,所述步骤S300还包括:
步骤401、判断评分结果是否超出预设的评分阈值;
步骤402、当评分结果超出评分阈值,则进行调查提示;
步骤403、当评分结果未超出评分阈值,则进行理赔核算。
本实施例中,当根据评分结果及预设的评分阈值判断存在投保欺诈(即报案信息对应的评分结果超出了评分阈值),则启动下一步调查;当不存在欺诈(即报案信息对应的评分结果未超出了评分阈值),则可以走向理赔核算等流程。可见,本申请中可以快速搭建各种类型模型,尤其是车险风控模型;还可以快速将模型部署至事中各个环节,与业务系统实时对接,无论是前端销售支持、中端客户服务还是后端风险管控都可以自由搭配、快速部署模型和规则。
基于上述智能建模的模型输出方法,本申请还提供了一种智能建模的模型输出设备。如图4所示,所述智能建模的模型输出设备包括处理器11、存储器12及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的智能建模的模型输出程序10,以实现以下步骤:
预先建立用于作为模型训练输入因子的模型因子库;
获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果;其中,预先设置的建模流程包括宽表搭建、数据探索、显著性分析、变量分箱、相关性分析、模型训练、模型测试、模型效果评价、及模型监控;
若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果。
在本实施例中,所述的智能建模的模型输出程序10安装并运行于电子装置(即智能建模的模型输出设备1)中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括,但不仅限于,存储器11、处理器12及显示器13。图4仅示出了具有组件11-13的电子装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11在一些实施例中可以是所述电子装置的内部存储单元,例如该电子装置的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置的外部存储设备,例如所述电子装置上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置的应用软件及各类数据,例如所述智能建模的模型输出程序10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述智能建模的模型输出程序10等。
所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置中处理的信息以及用于显示可视化的用户界面,例如应用菜单界面、应用图标界面等。所述电子装置的部件11-13通过系统总线相互通信。
请参阅图5,是本申请智能建模的模型输出程序10较佳实施例的功能模块图。在本实施例中,所述的所述智能建模的模型输出程序10可以被分割成一个或多个模块,所述一个或者多个模块被存储于所述存储器11中,并由一个或多个处理器(本实施例为所述处理器12)所执行,以完成本申请。例如,在图5中,所述的智能建模的模型输出程序10可以被分割成模型因子库建立模块21,模型训练结果获取模块22,及评分结果处理模块23。本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述智能建模的模型输出程序10在所述电子装置中的执行过程。以下描述将具体介绍所述模块21-23的功能。
模型因子库建立模块21,用于预先建立用于作为模型训练输入因子的模型因子库;
模型训练结果获取模块22,用于获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果;其中,预先设置的建模流程包括宽表搭建、数据探索、显著性分析、变量分箱、相关性分析、模型训练、模型测试、模型效果评价、及模型监控;
评分结果处理模块23,用于若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果。
在一个实施例中,在所述智能建模的模型输出设备中,所述获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果的步骤中,包括:
将历史数据进行宽表搭建,得到第一处理数据;
将第一处理数据进行数据探索,得到第二处理数据;
将第二处理数据进行显著性分析,得到第三处理数据;
将第三处理数据进行变量分箱,得到第四处理数据;
将第四处理数据进行相关性分析,得到第五处理数据;
将第五处理数据进行模型训练,得到第六处理数据;
将第六处理数据进行模型测试,得到第七处理数据;
将第七处理数据进行模型效果评价,得到第八处理数据;
将第八处理数据进行模型监控,得到模型训练结果;具体实施请参考方法实施例,此处不再赘述。
在一个实施例中,在所述智能建模的模型输出设备中,所述将第八处理数据进行模型监控,得到模型训练结果的步骤之后还包括:
将所述模型训练结果发送至模型部署平台进行存储;具体实施请参考方法实施例,此处不再赘述。
在一个实施例中,在所述智能建模的模型输出设备中,所述若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果的步骤,包括:
接收查勘任务流,并接收调用函数请求;
获取查勘任务流对应的案件数据,通过Shell脚本调用Python进程;
获取模型因子库中被选中的模型因子;
在Python进程中将模型因子库中被选中的模型因子、查勘任务流对应案件数据作为模型训练结果的输入,进行函数运算,得到与查看任务流对应的评分结果;具体实施请参考方法实施例,此处不再赘述。
在一个实施例中,在所述智能建模的模型输出设备中,所述在Python进程中将模型因子库中被选中的模型因子、查勘任务流对应案件数据作为模型训练结果的输入,进行函数运算,得到与查看任务流对应的评分结果的步骤还包括:
将模型因子库中被选中的模型因子的权重、及查勘任务流所对应案件数据的权重值按降序排序时,排名位于指定位数之前的模型因子和/或查勘任务流所对应案件数据进行显示;具体实施请参考方法实施例,此处不再赘述。
在一个实施例中,在所述智能建模的模型输出设备中,所述若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果的步骤之后还包括:
判断评分结果是否超出预设的评分阈值;
当评分结果超出评分阈值,则进行调查提示;
当评分结果未超出评分阈值,则进行理赔核算;具体实施请参考方法实施例,此处不再赘述。
在一个实施例中,在所述智能建模的模型输出设备中,所述模型训练结果为函数;具体实施请参考方法实施例,此处不再赘述。
基于上述智能建模的模型输出方法,本申请还提供了一种存储介质(即计算机可读存储介质,计算机可读存储介质存储于存储器中)。所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现所述的智能建模的模型输出方法的步骤,具体包括以下的步骤:
预先建立用于作为模型训练输入因子的模型因子库;
获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果;其中,预先设置的建模流程包括宽表搭建、数据探索、显著性分析、变量分箱、相关性分析、模型训练、模型测试、模型效果评价、及模型监控;
若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果。
在一个实施例中,计算机在执行所述存储介质中存储的智能建模的模型输出程序,以实现所述获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果的步骤,包括:
将历史数据进行宽表搭建,得到第一处理数据;
将第一处理数据进行数据探索,得到第二处理数据;
将第二处理数据进行显著性分析,得到第三处理数据;
将第三处理数据进行变量分箱,得到第四处理数据;
将第四处理数据进行相关性分析,得到第五处理数据;
将第五处理数据进行模型训练,得到第六处理数据;
将第六处理数据进行模型测试,得到第七处理数据;
将第七处理数据进行模型效果评价,得到第八处理数据;
将第八处理数据进行模型监控,得到模型训练结果。
在一个实施例中,计算机在执行所述存储介质中存储的智能建模的模型输出程序,以实现所述将第八处理数据进行模型监控,得到模型训练结果的步骤之后还包括:
将所述模型训练结果发送至模型部署平台进行存储。
在一个实施例中,计算机在执行所述存储介质中存储的智能建模的模型输出程序,以实现所述若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果的步骤,包括:
接收查勘任务流,并接收调用函数请求;
获取查勘任务流对应的案件数据,通过Shell脚本调用Python进程;
获取模型因子库中被选中的模型因子;
在Python进程中将模型因子库中被选中的模型因子、查勘任务流对应案件数据作为模型训练结果的输入,进行函数运算,得到与查看任务流对应的评分结果。
在一个实施例中,计算机在执行所述存储介质中存储的智能建模的模型输出程序,以实现所述在Python进程中将模型因子库中被选中的模型因子、查勘任务流对应案件数据作为模型训练结果的输入,进行函数运算,得到与查看任务流对应的评分结果的步骤还包括:
将模型因子库中被选中的模型因子的权重、及查勘任务流所对应案件数据的权重值按降序排序时,排名位于指定位数之前的模型因子和/或查勘任务流所对应案件数据进行显示。
在一个实施例中,计算机在执行所述存储介质中存储的智能建模的模型输出程序,以实现所述若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果的步骤之后还包括:
判断评分结果是否超出预设的评分阈值;
当评分结果超出评分阈值,则进行调查提示;
当评分结果未超出评分阈值,则进行理赔核算。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,前述计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,前述计算机可读取存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质。
综上所述,本申请提供的智能建模的模型输出方法、设备及存储介质,方法包括:预先建立用于作为模型训练输入因子的模型因子库;获取历史数据,并对历史数据依次进行宽表搭建、数据探索、显著性分析、变量分箱、相关性分析、模型训练、模型测试、模型效果评价、及模型监控的数据处理后,得到处理后数据,将处理后数据输入到逻辑回归模型,得到模型训练结果;若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果。本申请中部署了由SMP标准建模流程所训练得到的模型训练结果,当模型因子库因子、查勘任务流被模型部署平台接收时,直接由模型训练结果进行案件风险评分,而且已经部署在模型部署平台中的函数可以随时优化迭代。
可以理解的是,对本领域普通技术人员来说,可以根据本申请的技术方案及本申请构思加以等同替换或改变,而所有这些改变或替换都应属于本申请所附的权利要求的保护范围。
Claims (8)
1.一种智能建模的模型输出方法,其特征在于,所述方法包括以下步骤:
预先建立用于作为模型训练输入因子的模型因子库;
获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果;其中,预先设置的建模流程包括宽表搭建、数据探索、显著性分析、变量分箱、相关性分析、模型训练、模型测试、模型效果评价、及模型监控;
若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果;
所述获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果的步骤,包括:
将历史数据进行宽表搭建,得到第一处理数据;
将第一处理数据进行数据探索,得到第二处理数据;
将第二处理数据进行显著性分析,得到第三处理数据;
事先对总体的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合理,即判断总体的真实情况与原假设是否有显著性差异;
将第三处理数据进行变量分箱,得到第四处理数据;
将第四处理数据进行相关性分析,得到第五处理数据;
对两个或多个具备相关性的变量元素进行分析,衡量两个或多个变量因素的相关密切程度;
将第五处理数据进行模型训练,得到第六处理数据;
将第六处理数据进行模型测试,得到第七处理数据;
将第七处理数据进行模型效果评价,得到第八处理数据;
将第八处理数据进行模型监控,得到模型训练结果。
2.根据权利要求1所述智能建模的模型输出方法,其特征在于,所述将第八处理数据进行模型监控,得到模型训练结果的步骤之后还包括:
将所述模型训练结果发送至模型部署平台进行存储。
3.根据权利要求2所述智能建模的模型输出方法,其特征在于,所述若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果的步骤,包括:
接收查勘任务流,并接收调用函数请求;
获取查勘任务流对应的案件数据,通过Shell脚本调用Python进程;
获取模型因子库中被选中的模型因子;
在Python进程中将模型因子库中被选中的模型因子、查勘任务流对应案件数据作为模型训练结果的输入,进行函数运算,得到与查看任务流对应的评分结果。
4.根据权利要求3所述智能建模的模型输出方法,其特征在于,所述在Python进程中将模型因子库中被选中的模型因子、查勘任务流对应案件数据作为模型训练结果的输入,进行函数运算,得到与查看任务流对应的评分结果的步骤,还包括:
将模型因子库中被选中的模型因子的权重、及查勘任务流所对应案件数据的权重值按降序排序时,排名位于指定位数之前的模型因子和/或查勘任务流所对应案件数据进行显示。
5.根据权利要求1所述智能建模的模型输出方法,其特征在于,所述若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果的步骤之后,还包括:
判断评分结果是否超出预设的评分阈值;
当评分结果超出评分阈值,则进行调查提示;
当评分结果未超出评分阈值,则进行理赔核算。
6.根据权利要求1-5任一项所述智能建模的模型输出方法,其特征在于,所述模型训练结果为函数。
7.一种智能建模的模型输出设备,其特征在于,所述智能建模的模型输出设备包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的智能建模的模型输出程序,以实现以下步骤:
预先建立用于作为模型训练输入因子的模型因子库;
获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果;其中,预先设置的建模流程包括宽表搭建、数据探索、显著性分析、变量分箱、相关性分析、模型训练、模型测试、模型效果评价、及模型监控;
若检测接收到查勘任务流,则将模型因子库中被选中的模型因子、查勘任务流对应的案件数据作为模型训练结果的输入进行函数运算后,得到与查勘任务流对应的评分结果;
所述获取历史数据,对历史数据按预先设置的建模流程进行训练,得到模型训练结果的步骤,包括:
将历史数据进行宽表搭建,得到第一处理数据;
将第一处理数据进行数据探索,得到第二处理数据;
将第二处理数据进行显著性分析,得到第三处理数据;
将第三处理数据进行变量分箱,得到第四处理数据;
将第四处理数据进行相关性分析,得到第五处理数据;
将第五处理数据进行模型训练,得到第六处理数据;
将第六处理数据进行模型测试,得到第七处理数据;
将第七处理数据进行模型效果评价,得到第八处理数据;
将第八处理数据进行模型监控,得到模型训练结果;
其中,相关性分析,是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度;相关性的元素之间需要存在一定的联系或者概率才进行相关性分析;相关性分析具体有图表相关分析和协方差及协方差矩阵分析。
8.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-6任一项所述智能建模的模型输出方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711331557.3A CN108170909B (zh) | 2017-12-13 | 2017-12-13 | 一种智能建模的模型输出方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711331557.3A CN108170909B (zh) | 2017-12-13 | 2017-12-13 | 一种智能建模的模型输出方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108170909A CN108170909A (zh) | 2018-06-15 |
CN108170909B true CN108170909B (zh) | 2021-08-03 |
Family
ID=62525912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711331557.3A Active CN108170909B (zh) | 2017-12-13 | 2017-12-13 | 一种智能建模的模型输出方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170909B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108898504B (zh) * | 2018-07-09 | 2021-12-07 | 北京精友世纪软件技术有限公司 | 一种移动查勘定损系统的智能训练及完善方法 |
CN109165249B (zh) * | 2018-08-07 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 数据处理模型构建方法、装置、服务器和用户端 |
CN109214937A (zh) * | 2018-09-27 | 2019-01-15 | 上海远眸软件有限公司 | 保险理赔智能反欺诈判定方法和系统 |
CN109935338A (zh) * | 2019-03-07 | 2019-06-25 | 平安科技(深圳)有限公司 | 基于机器学习的数据预测处理方法、装置和计算机设备 |
CN110458600A (zh) * | 2019-07-08 | 2019-11-15 | 平安科技(深圳)有限公司 | 画像模型训练方法、装置、计算机设备及存储介质 |
CN111144738A (zh) * | 2019-12-24 | 2020-05-12 | 太平金融科技服务(上海)有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
CN111401431B (zh) * | 2020-03-12 | 2023-07-25 | 成都小步创想慧联科技有限公司 | 群租房识别方法及系统及存储介质 |
CN111581193A (zh) * | 2020-04-27 | 2020-08-25 | 平安资产管理有限责任公司 | 数据处理方法、设备、计算机系统及存储介质 |
CN111611129B (zh) * | 2020-05-12 | 2024-02-02 | 中国工商银行股份有限公司 | PaaS云平台的性能监控方法及装置 |
CN111695820B (zh) * | 2020-06-16 | 2023-04-18 | 深圳市城市公共安全技术研究院有限公司 | 工程车辆电子联单管理方法、装置、终端及存储介质 |
CN112685674A (zh) * | 2020-12-30 | 2021-04-20 | 百果园技术(新加坡)有限公司 | 一种影响用户留存的特征评估方法及装置 |
CN112966131B (zh) * | 2021-03-02 | 2022-09-16 | 中华人民共和国成都海关 | 一种海关数据风控类型识别方法、海关智能化风险布控方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488046A (zh) * | 2014-09-16 | 2016-04-13 | 钛马信息网络技术有限公司 | 基于车辆保险业务的大数据分析系统 |
CN106022508A (zh) * | 2016-05-06 | 2016-10-12 | 陈丛威 | 预测线上理财平台的用户邀请好友行为的方法和装置 |
CN107240024A (zh) * | 2017-05-22 | 2017-10-10 | 中国平安人寿保险股份有限公司 | 保险理赔的反欺诈识别方法及装置 |
CN107292528A (zh) * | 2017-06-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 车险风险预测方法、装置及服务器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7801748B2 (en) * | 2003-04-30 | 2010-09-21 | Genworth Financial, Inc. | System and process for detecting outliers for insurance underwriting suitable for use by an automated system |
-
2017
- 2017-12-13 CN CN201711331557.3A patent/CN108170909B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488046A (zh) * | 2014-09-16 | 2016-04-13 | 钛马信息网络技术有限公司 | 基于车辆保险业务的大数据分析系统 |
CN106022508A (zh) * | 2016-05-06 | 2016-10-12 | 陈丛威 | 预测线上理财平台的用户邀请好友行为的方法和装置 |
CN107240024A (zh) * | 2017-05-22 | 2017-10-10 | 中国平安人寿保险股份有限公司 | 保险理赔的反欺诈识别方法及装置 |
CN107292528A (zh) * | 2017-06-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 车险风险预测方法、装置及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN108170909A (zh) | 2018-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108170909B (zh) | 一种智能建模的模型输出方法、设备及存储介质 | |
CN108182515B (zh) | 智能规则引擎规则输出方法、设备及计算机可读存储介质 | |
US20120066166A1 (en) | Predictive Analytics for Semi-Structured Case Oriented Processes | |
US20190325333A1 (en) | Model interpretation | |
US20200034749A1 (en) | Training corpus refinement and incremental updating | |
US20240005218A1 (en) | Model interpretation | |
CN112989035A (zh) | 基于文本分类识别用户意图的方法、装置及存储介质 | |
CN113837596B (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
US20220129816A1 (en) | Methods and arrangements to manage requirements and controls, and data at the intersection thereof | |
CN112101520A (zh) | 风险评估模型训练方法、业务风险评估方法及其他设备 | |
US12050625B2 (en) | Systems and methods for classifying imbalanced data | |
CN110688536A (zh) | 一种标签预测方法、装置、设备和存储介质 | |
CN114840853A (zh) | 基于大数据的数字化业务分析方法及云服务器 | |
US20210110409A1 (en) | False detection rate control with null-hypothesis | |
KR20220151650A (ko) | 대용량 고속 스트림 데이터로부터 예측 분석들을 동적으로 발생시키기 위한 알고리즘적 학습 엔진 | |
CN115936895A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
WO2022245706A1 (en) | Fault detection and mitigation for aggregate models using artificial intelligence | |
CN113282920B (zh) | 日志异常检测方法、装置、计算机设备和存储介质 | |
CN113537656B (zh) | 评估供应商服务质量的方法、系统、设备和介质 | |
CN113515625A (zh) | 测试结果分类模型训练方法、分类方法及装置 | |
CN110704614B (zh) | 对应用中的用户群类型进行预测的信息处理方法及装置 | |
CN117035416A (zh) | 企业风险评估方法、企业风险评估装置、设备及存储介质 | |
CN113296836B (zh) | 训练模型的方法、测试方法、装置、电子设备及存储介质 | |
CN113052604A (zh) | 一种对象检测方法、装置、设备及存储介质 | |
CN113869904A (zh) | 可疑数据识别方法、装置、电子设备、介质和计算机程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |