CN111222994A - 客户风险评估方法、装置、介质和电子设备 - Google Patents
客户风险评估方法、装置、介质和电子设备 Download PDFInfo
- Publication number
- CN111222994A CN111222994A CN201811412832.9A CN201811412832A CN111222994A CN 111222994 A CN111222994 A CN 111222994A CN 201811412832 A CN201811412832 A CN 201811412832A CN 111222994 A CN111222994 A CN 111222994A
- Authority
- CN
- China
- Prior art keywords
- policy
- data
- expired
- random forest
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Abstract
本发明提供了一种客户风险评估方法、装置、介质和电子设备,预先基于随机森林算法训练得到客户风险评估模型,进而通过该客户风险评估模型对待测保单的客户数据进行风险评估,从而预测该客户到期未理赔或者期内理赔。可以看出,本发明通过建立客户风险评估模型丰富核保手段,提高风险评估时效性,解决人工核保以简单规则为核查手段的缺陷,提高准确性。
Description
技术领域
本发明涉及互联网技术领域,更具体地说,涉及一种客户风险评估方法、装置、介质和电子设备。
背景技术
保险产品作为能够兼顾风险保障和保值增值服务的金融产品,在社会生产和生活中发挥着无可替代的作用,而核保工作则是风险控制的基石。
目前,保险公司实际业务中的核保工作主要通过人工核保,对投保人的基本信息进行审核,但这种核保方式以简单规则为核查手段准确性差。
发明内容
有鉴于此,本发明提供一种客户风险评估方法、装置、介质和电子设备,以解决人工核保以简单规则为核查手段准确性差的问题。技术方案如下:
基于本发明实施例的一方面,本发明实施例提供一种客户风险评估方法,包括:
获取待测保单的客户数据;
根据所述待测保单所属的险种从客户风险评估模型中确定评估用的目标客户风险评估模型,所述客户风险评估模型是预先基于随机森林算法训练得到的;
获取所述目标客户风险评估模型基于所述待测保单的客户数据所输出的评估结果,所述评估结果包括到期未理赔或者期内理赔。
可选的,预先基于随机森林算法训练所述客户风险评估模型的过程包括:
获取预设险种下历史保单的客户数据,并从所述历史保单的客户数据中提取保单特征以及所述保单特征下的特征数据;
基于所述保单特征下的特征数据从所述历史保单中筛选到期保单,并为所述到期保单添加标签,所述标签包括到期未理赔或者期内理赔;
至少基于所述到期保单在所述保单特征下的特征数据确定样本数据;
基于所述样本数据和预先确定的随机森林参数生成第一随机森林分类器,并将所述第一随机森林分类器确定为所述客户风险评估模型。
可选的,所述至少基于所述到期保单在所述保单特征下的特征数据确定样本数据,包括:
基于所述到期保单在所述保单特征下的特征数据和所述到期保单所添加的标签,从所述保单特征中选取高风险特征;
将所述到期保单在所述高风险特征下的特征数据确定为样本数据。
可选的,所述基于所述到期保单在所述保单特征下的特征数据和所述到期保单所添加的标签,从所述保单特征中选取高风险特征之前,所述方法还包括:
对所述到期保单在所述保单特征下的特征数据进行预处理。
可选的,所述对所述到期保单在所述保单特征下的特征数据进行预处理,包括:
对所述到期保单在所述保单特征下的特征数据进行缺失值处理和/或异常值处理。
可选的,所述基于所述到期保单在所述保单特征下的特征数据和所述到期保单所添加的标签,从所述保单特征中选取高风险特征,包括:
基于所述到期保单在所述保单特征下的特征数据和所述到期保单所添加的标签,计算所述保单特征的基尼指数;
选取基尼指数满足预设规则的所述保单特征作为高风险特征。
可选的,所述预先确定的随机森林参数的生成过程,包括:
处理所述样本数据得到多组数据集,所述数据集包括训练集和验证集;
针对所述多组数据集中的每一个数据集,使用分治组合采样方法处理所述数据集中的所述训练集;
基于处理后的所述训练集和预设随机森林参数生成第二随机森林分类器;
利用所述数据集中的所述验证集计算所述第二随机森林分类器的召回率;
根据所述多组数据集对应的多个所述召回率计算所述预设随机森林参数的性能指标值;
选取性能指标值最大的所述预设随机森林参数,作为所述预先确定的随机森林参数。
基于本发明实施例的再一方面,本发明实施例提供一种客户风险评估装置,包括:
数据获取模块,用于获取待测保单的客户数据;
模型确定模块,用于根据所述待测保单所属的险种从客户风险评估模型中确定评估用的目标客户风险评估模型,所述客户风险评估模型是预先基于随机森林算法训练得到的;
结果获取模块,用于获取所述目标客户风险评估模型基于所述待测保单的客户数据所输出的评估结果,所述评估结果包括到期未理赔或者期内理赔。
基于本发明实施例的再一方面,本发明实施例提供一种存储介质,其上存储有程序,所述程序被处理器执行时实现前文所述客户风险评估方法。
基于本发明实施例的再一方面,本发明实施例提供一种电子设备,包括:
处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行前文所述客户风险评估方法。
本发明实施例提供的客户风险评估方法、装置、介质和电子设备,预先基于随机森林算法训练得到客户风险评估模型,进而通过该客户风险评估模型对待测保单的客户数据进行风险评估,从而预测该客户到期未理赔或者期内理赔。可以看出,本发明通过建立客户风险评估模型丰富核保手段,提高风险评估时效性,解决人工核保以简单规则为核查手段的缺陷,提高准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的客户风险评估方法的方法流程图;
图2为本发明实施例提供的客户风险评估方法的部分方法流程图;
图3为本发明实施例提供的客户风险评估方法的部分方法流程图;
图4为本发明实施例提供的客户风险评估装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种客户风险评估方法,该方法的方法流程图如图1所示,包括如下步骤:
S10,获取待测保单的客户数据。
本发明实施例中,针对待测保单,可以基于保单的保单号从业务数据库中获取该保单号所对应的客户数据,该客户数据包括但不局限于投保人基础信息、被保人基础信息、亲属信息、网点信息、保单信息、浏览行为信息和理赔信息等,本实施例对此不做限定,可以根据实际需要进行设置。
S20,根据待测保单所属的险种从客户风险评估模型中确定评估用的目标客户风险评估模型,客户风险评估模型是预先基于随机森林算法训练得到的。
本实施例中,由于不同险种的客户信息的类型存在差别,因此针对不同的险种,采用与该险种对应的客户风险评估模型。在核保阶段,以客户未来发生理赔的概率代表客户的风险值,对投保客户进行风险值的预先评估,从而预测出期内理赔的高风险的客户和到期未理赔低风险的有价值的客户,对于两类客户采用不同的营销方式,从而能够达到降低赔付风险的目的。
在具体实现过程中,步骤S20中预先基于随机森林算法训练客户风险评估模型的过程,可以具体采用以下步骤,方法流程图如图2所示:
S201,获取预设险种下历史保单的客户数据,并从历史保单的客户数据中提取保单特征以及保单特征下的特征数据。
S202,基于保单特征下的特征数据从历史保单中筛选到期保单,并为到期保单添加标签,标签包括到期未理赔或者期内理赔。
在执行步骤S202的过程中,可以基于保单信息中的保单期满时间从历史保单中筛选出到期保单,并根据理赔信息将到期保单分为到期未理赔和期内理赔两类,并为两类到期保单分别赋予标签0和1。
S203,至少基于到期保单在保单特征下的特征数据确定样本数据。
在执行步骤S203的过程中,可以将到期保单在保单特征下的特征数据作为样本数据。
而为实现模型的降维,可以选取一个或多个高风险特征下的特征数据作为训练输入变量。而对于高风险特征的选取,可以预先指定;还可以根据具体的特征数据进行计算,具体的,首先基于到期保单在保单特征下的特征数据和到期保单所添加的标签,从保单特征中选取高风险特征;进而,将到期保单在高风险特征下的特征数据确定为样本数据。
其中,基于到期保单在保单特征下的特征数据和到期保单所添加的标签,从保单特征中选取高风险特征的具体实施方式如下:
首先,计算保单特征中每一个特征的基尼指数。
假定离散特征a有V个可能的取值{a1,a2,…,aV},若使用离散特征a对到期保单D进行划分,则会产生V个分支节点,其中第V个分支节点包含了到期保单D中所有在离散特征a上取值为aV的到期保单,记为DV,则可以采用如下公式(1)计算特征a的基尼指数:
其中,Gini_index(D,a)为到期保单D中特征a的基尼指数,|DV|为DV中的保单数量,|D|为到期保单D中的保单数量,Gini(DV)为到期保单DV的基尼值。
其次,采用如下公式(2)计算到期保单DV的纯度:
其中,pk(k=1,2)为到期保单DV中第k类到期保单所占的比例,具体到期保单可以按照标签分为到期未理赔和期内理赔两类。
一般而言,基尼指数越小,则意味着使用特征a来进行划分所获得的“纯度提升”越大,特征a越重要。因此,可以选取基尼指数符合预设规则,比如选取基尼指数最小的30个保单特征作为适合模型长期稳定维护的高风险特征。
此外,为保证样本数据的可靠性,在选取高风险特征之前,还可以对到期保单在保单特征下的特征数据进行预处理。而该预处理包括但不局限于缺失值处理和异常值处理中的一种或多种。以下对预处理进行说明:
到期保单在保单特征下的特征数据中具有大量的数据缺失,可以首先统计保单特征下特征数据的缺失比例,并剔除缺失比例较大,比如大于70%的保单特征;进而统计到期保单的保单特征的缺失比例,并剔除缺失比例较大,比如大于30%的到期特征。
此时,对于剩余到期保单在剩余保单特征下的特征数据,采用如下方式进行缺失值补缺:
1)采用所在到期保单其它相关保单特征下的特征数据推测其数据。
2)定性的保单特征的缺失值利用该保单特征的众数代替。
3)定量的保单特征的缺失值利用该保单特征的均值代替。
另外,可能由于某些原因导致数据收集时出现错误,特征数据的数据值过大或者过小,导致异常值出现。利用拉依达准则,对于超出正常数据阈值范围的特征数据进行对应保单特征的平均值或者众数替代。
S204,基于样本数据和预先确定的随机森林参数生成第一随机森林分类器,并将第一随机森林分类器确定为客户风险评估模型。
本实施例中,预先确定的随机森林参数包括但不局限于建立子树的数量、最小叶片大小、决策树最大深度等,本实施例对此不做限定,可根据实际需要进行设置。
在执行步骤S204的过程中,可以预先设置多个随机森林参数,并从该多个随机森林参数中确定使随机森林分类器性能指标最优的随机森林参数。
在具体实现过程中,步骤S204中预先确定的随机森林参数的生成过程,可以具体采用以下步骤,方法流程图如图3所示:
S2041,处理样本数据得到多组数据集,数据集包括训练集和验证集。
在执行步骤S2041的过程中,为提高模型的泛化能力,可以采用十折交叉验证的方法将样本数据均等分为10组,每组的样本数据分别做一次验证集,相应其余9组的样本数据作为训练集,从而得到10个由训练集和验证集构成的数据集。
S2042,针对多组数据集中的每一个数据集,使用分治组合采样方法处理数据集中的训练集。
在执行步骤S2042的过程中,由于训练集中的到期未理赔(也就是标签为0)和期内理赔(也就是标签为1)的样本数量比例严重失衡,因此可以使用分治组合采样方法将每个训练集重组为多个训练子集。具体重组过程如下:
首先,计算训练集中到期未理赔的样本和期内理赔的样本的数量比例n;然后,将到期未理赔的样本均等分为n份,每一份与期内理赔的样本就能够构成比例为1:1的训练子集。
S2043,基于处理后的训练集和预设随机森林参数生成第二随机森林分类器。
在执行步骤S2043的过程中,针对10个数据集中的每个数据集来说,利用训练集中的每个训练子集和预设随机森林参数建立一棵决策树,对多棵决策树进行加权投票组成该数据集对应的第二随机森林分类器。此时,10个数据集就得到10个第二随机森林分类器。以下对一个第二随机森林分类器的生成过程进行介绍:
对每一个训练子集进行如下操作:
首先,采用如下公式(3)计算训练子集D′的信息熵:
其中,Ent(D′)为训练子集D′的信息熵,p′k(k=1,2)为训练子集D′中第k类到期保单所占的比例,具体到期保单可以按照标签分为到期未理赔和期内理赔两类。
其次,采用如下公式(4)计算离散特征a′对训练子集D′进行划分所获得的信息增益:
假定离散特征a′有V′个可能的取值{a′1,a′2,…,a′V′},若使用离散特征a′对训练子集D′进行划分,则会产生V′个分支节点,其中第V′个分支节点包含了训练子集D′中所有在离散特征a′上取值为a′V的到期保单,记为D′V′。
其中,Gain(D′,a′)为离散特征a′对训练子集D′进行划分所获得的信息增益,|D′V′|为D′V′中的保单数量,|D′|为训练子集|D′|中的保单数量,Ent(D′V′)为D′V′的信息熵、具体计算方式参见训练子集D′的信息熵,对此不再赘述。
然后,采用如下公式(5)计算离散特征a′的增益率:
其中,Gain_ratio(D′,a′)为离散特征a′的增益率、再后,使用增益率从离散特征a′中选择最优划分特征,增益率准则——先从离散特征a′中找出信息增益高于平均水平的特征,再从中选择增益率最高的特征进行划分,从而得到一颗决策树。
基于上述论述,对n个训练子集重复上述过程生成n棵决策树,采用对n棵决策树进行加权投票的方式代替传统的简单投票,具体实施如下:
为尽可能多的准确预测出高风险客户,采用如下公式(6)计算每棵决策树应用于对应验证集上的召回率:
其中,recalli为第i棵决策树的召回率,TPi为第i棵决策树分类正确的高风险客户的数量,FNi为第i棵决策树将实际高风险客户错误的分类为低风险的客户数量。
其中,cix表示第i棵决策树对样本x的分类结果,Cx表示第二随机森林分类器对样本x的最终分类结果。
S2044,利用数据集中的验证集计算第二随机森林分类器的召回率。
在执行步骤S2044的过程中,可以将数据集中的验证集作为第二随机森林分类器的输入,并按照如下公式(8)计算第二随机森林分类器的召回率:
其中,recall为第二随机森林分类器的召回率,TP为第二随机森林分类器分类正确的高风险客户的数量,FN为第二随机森林分类器将实际高风险客户错误的分类为低风险的客户数量。
S2045,根据多组数据集对应的多个召回率计算预设随机森林参数的性能指标值。
在执行步骤S2045的过程中,继续以十折交叉验证为例进行说明,10个数据集就得到10个第二随机森林分类器,此时,可以采用这10个第二随机森林分类器的召回率的平均数作为相应预设随机森林参数的性能指标值。当然,还可以对这10个第二随机森林分类器的召回率进行其他方式的处理,本实施例对此不做限定。
S2046,选取性能指标值最大的预设随机森林参数,作为预先确定的随机森林参数。
需要说明的是,在确定随机森林参数时所使用的数据,还可以采用除样本数据之外的其他数据,本实施例对此不做限定。
还需要说明的是,基于样本数据和随机森林参数生成第一随机森林分类器的过程,参见步骤S2043生成第二随机森林分类器的过程,本实施例对此不再赘述。
S30,获取目标客户风险评估模型基于待测保单的客户数据所输出的评估结果,评估结果包括到期未理赔或者期内理赔。
本发明实施例提供的客户风险评估方法,预先基于随机森林算法训练得到客户风险评估模型,进而通过该客户风险评估模型对待测保单的客户数据进行风险评估,从而预测该客户到期未理赔或者期内理赔。可以看出,本发明通过建立客户风险评估模型丰富核保手段,提高风险评估时效性,解决人工核保以简单规则为核查手段的缺陷,提高准确性。
基于前文本发明实施例提供的客户风险评估方法,本发明实施例还提供一种客户风险评估装置,如图4所示,该装置包括:
数据获取模块10,用于获取待测保单的客户数据;
模型确定模块20,用于根据待测保单所属的险种从客户风险评估模型中确定评估用的目标客户风险评估模型,客户风险评估模型是预先基于随机森林算法训练得到的;
结果获取模块30,用于获取目标客户风险评估模型基于待测保单的客户数据所输出的评估结果,评估结果包括到期未理赔或者期内理赔。
可选的,用于预先基于随机森林算法训练客户风险评估模型的模型确定模块20,具体用于:
获取预设险种下历史保单的客户数据,并从历史保单的客户数据中提取保单特征以及保单特征下的特征数据;基于保单特征下的特征数据从历史保单中筛选到期保单,并为到期保单添加标签,标签包括到期未理赔或者期内理赔;至少基于到期保单在保单特征下的特征数据确定样本数据;基于样本数据和预先确定的随机森林参数生成第一随机森林分类器,并将第一随机森林分类器确定为客户风险评估模型。
可选的,用于至少基于到期保单在保单特征下的特征数据确定样本数据的确定模块20,具体用于:
基于到期保单在保单特征下的特征数据和到期保单所添加的标签,从保单特征中选取高风险特征;将到期保单在高风险特征下的特征数据确定为样本数据。
可选的,确定模块20,还用于:
对到期保单在保单特征下的特征数据进行预处理。
可选的,用于对到期保单在保单特征下的特征数据进行预处理的确定模块20,具体用于:
对到期保单在保单特征下的特征数据进行缺失值处理和/或异常值处理。
可选的,基于到期保单在保单特征下的特征数据和到期保单所添加的标签,从保单特征中选取高风险特征的确定模块20,具体用于:
基于到期保单在保单特征下的特征数据和到期保单所添加的标签,计算保单特征的基尼指数;选取基尼指数满足预设规则的保单特征作为高风险特征。
可选的,用于生成预先确定的随机森林参数的确定模块20,具体用于:
处理样本数据得到多组数据集,数据集包括训练集和验证集;针对多组数据集中的每一个数据集,使用分治组合采样方法处理数据集中的训练集;基于处理后的训练集和预设随机森林参数生成第二随机森林分类器;利用数据集中的验证集计算第二随机森林分类器的召回率;根据多组数据集对应的多个召回率计算预设随机森林参数的性能指标值;选取性能指标值最大的预设随机森林参数。
本发明实施例提供的客户风险评估装置,预先基于随机森林算法训练得到客户风险评估模型,进而通过该客户风险评估模型对待测保单的客户数据进行风险评估,从而预测该客户到期未理赔或者期内理赔。可以看出,本发明通过建立客户风险评估模型丰富核保手段,提高风险评估时效性,解决人工核保以简单规则为核查手段的缺陷,提高准确性。
客户风险评估装置包括处理器和存储器,上述数据获取模块10、模型确定模块20和结果获取模块30均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现文本行区域检测。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现前文所述客户风险评估方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前文所述客户风险评估方法。
本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行前文所述客户风险评估方法。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化实现前文所述客户风险评估方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种客户风险评估方法,其特征在于,包括:
获取待测保单的客户数据;
根据所述待测保单所属的险种从客户风险评估模型中确定评估用的目标客户风险评估模型,所述客户风险评估模型是预先基于随机森林算法训练得到的;
获取所述目标客户风险评估模型基于所述待测保单的客户数据所输出的评估结果,所述评估结果包括到期未理赔或者期内理赔。
2.根据权利要求1所述的方法,其特征在于,预先基于随机森林算法训练所述客户风险评估模型的过程包括:
获取预设险种下历史保单的客户数据,并从所述历史保单的客户数据中提取保单特征以及所述保单特征下的特征数据;
基于所述保单特征下的特征数据从所述历史保单中筛选到期保单,并为所述到期保单添加标签,所述标签包括到期未理赔或者期内理赔;
至少基于所述到期保单在所述保单特征下的特征数据确定样本数据;
基于所述样本数据和预先确定的随机森林参数生成第一随机森林分类器,并将所述第一随机森林分类器确定为所述客户风险评估模型。
3.根据权利要求2所述的方法,其特征在于,所述至少基于所述到期保单在所述保单特征下的特征数据确定样本数据,包括:
基于所述到期保单在所述保单特征下的特征数据和所述到期保单所添加的标签,从所述保单特征中选取高风险特征;
将所述到期保单在所述高风险特征下的特征数据确定为样本数据。
4.根据权利要求3所述的方法,其特征在于,所述基于所述到期保单在所述保单特征下的特征数据和所述到期保单所添加的标签,从所述保单特征中选取高风险特征之前,所述方法还包括:
对所述到期保单在所述保单特征下的特征数据进行预处理。
5.根据权利要求4所述的方法,其特征在于,所述对所述到期保单在所述保单特征下的特征数据进行预处理,包括:
对所述到期保单在所述保单特征下的特征数据进行缺失值处理和/或异常值处理。
6.根据权利要求3所述的方法,其特征在于,所述基于所述到期保单在所述保单特征下的特征数据和所述到期保单所添加的标签,从所述保单特征中选取高风险特征,包括:
基于所述到期保单在所述保单特征下的特征数据和所述到期保单所添加的标签,计算所述保单特征的基尼指数;
选取基尼指数满足预设规则的所述保单特征作为高风险特征。
7.根据权利要求2所述的方法,其特征在于,所述预先确定的随机森林参数的生成过程,包括:
处理所述样本数据得到多组数据集,所述数据集包括训练集和验证集;
针对所述多组数据集中的每一个数据集,使用分治组合采样方法处理所述数据集中的所述训练集;
基于处理后的所述训练集和预设随机森林参数生成第二随机森林分类器;
利用所述数据集中的所述验证集计算所述第二随机森林分类器的召回率;
根据所述多组数据集对应的多个所述召回率计算所述预设随机森林参数的性能指标值;
选取性能指标值最大的所述预设随机森林参数,作为所述预先确定的随机森林参数。
8.一种客户风险评估装置,其特征在于,包括:
数据获取模块,用于获取待测保单的客户数据;
模型确定模块,用于根据所述待测保单所属的险种从客户风险评估模型中确定评估用的目标客户风险评估模型,所述客户风险评估模型是预先基于随机森林算法训练得到的;
结果获取模块,用于获取所述目标客户风险评估模型基于所述待测保单的客户数据所输出的评估结果,所述评估结果包括到期未理赔或者期内理赔。
9.一种存储介质,其特征在于,其上存储有程序,所述程序被处理器执行时实现权利要求1至7中任一项所述客户风险评估方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述客户风险评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811412832.9A CN111222994A (zh) | 2018-11-23 | 2018-11-23 | 客户风险评估方法、装置、介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811412832.9A CN111222994A (zh) | 2018-11-23 | 2018-11-23 | 客户风险评估方法、装置、介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111222994A true CN111222994A (zh) | 2020-06-02 |
Family
ID=70830789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811412832.9A Pending CN111222994A (zh) | 2018-11-23 | 2018-11-23 | 客户风险评估方法、装置、介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111222994A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859371A (zh) * | 2020-07-22 | 2020-10-30 | 广州大学 | 一种应用程序的隐私风险评估方法、装置及存储介质 |
CN112017064A (zh) * | 2020-08-26 | 2020-12-01 | 上海爱佰医疗科技发展有限公司 | 适用于辅助生殖保险的投保建议评估方法及装置 |
CN113592058A (zh) * | 2021-07-05 | 2021-11-02 | 西安邮电大学 | 一种定量预测微博转发广度与深度的方法 |
CN114301713A (zh) * | 2021-12-30 | 2022-04-08 | 中国工商银行股份有限公司 | 风险访问检测模型的训练方法、风险访问检测方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600417A (zh) * | 2016-11-09 | 2017-04-26 | 前海企保科技(深圳)有限公司 | 一种财产保险保单的核保方法和装置 |
WO2017133456A1 (zh) * | 2016-02-01 | 2017-08-10 | 腾讯科技(深圳)有限公司 | 一种确定风险评估参数的方法及装置 |
CN107203945A (zh) * | 2017-06-12 | 2017-09-26 | 清华大学苏州汽车研究院(吴江) | 车险分级评估方法及装置 |
CN107818513A (zh) * | 2017-11-24 | 2018-03-20 | 泰康保险集团股份有限公司 | 风险评估方法及装置、存储介质、电子设备 |
CN107909299A (zh) * | 2017-12-11 | 2018-04-13 | 凯泰铭科技(北京)有限公司 | 人伤理赔数据风险检测方法和系统 |
CN108231201A (zh) * | 2018-01-25 | 2018-06-29 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、系统及应用 |
CN108256720A (zh) * | 2017-11-07 | 2018-07-06 | 中国平安财产保险股份有限公司 | 一种保险理赔风险评估方法及终端设备 |
CN108428188A (zh) * | 2018-01-24 | 2018-08-21 | 顺丰科技有限公司 | 理赔风险预测方法、系统、设备及存储介质 |
CN108549954A (zh) * | 2018-03-26 | 2018-09-18 | 平安科技(深圳)有限公司 | 风险模型训练方法、风险识别方法、装置、设备及介质 |
CN108648091A (zh) * | 2018-05-16 | 2018-10-12 | 中国平安人寿保险股份有限公司 | 保单风险评估方法、装置、设备和计算机存储介质 |
CN108694520A (zh) * | 2018-07-02 | 2018-10-23 | 平安健康保险股份有限公司 | 理赔客户风险识别方法及系统 |
-
2018
- 2018-11-23 CN CN201811412832.9A patent/CN111222994A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133456A1 (zh) * | 2016-02-01 | 2017-08-10 | 腾讯科技(深圳)有限公司 | 一种确定风险评估参数的方法及装置 |
CN106600417A (zh) * | 2016-11-09 | 2017-04-26 | 前海企保科技(深圳)有限公司 | 一种财产保险保单的核保方法和装置 |
CN107203945A (zh) * | 2017-06-12 | 2017-09-26 | 清华大学苏州汽车研究院(吴江) | 车险分级评估方法及装置 |
CN108256720A (zh) * | 2017-11-07 | 2018-07-06 | 中国平安财产保险股份有限公司 | 一种保险理赔风险评估方法及终端设备 |
CN107818513A (zh) * | 2017-11-24 | 2018-03-20 | 泰康保险集团股份有限公司 | 风险评估方法及装置、存储介质、电子设备 |
CN107909299A (zh) * | 2017-12-11 | 2018-04-13 | 凯泰铭科技(北京)有限公司 | 人伤理赔数据风险检测方法和系统 |
CN108428188A (zh) * | 2018-01-24 | 2018-08-21 | 顺丰科技有限公司 | 理赔风险预测方法、系统、设备及存储介质 |
CN108231201A (zh) * | 2018-01-25 | 2018-06-29 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、系统及应用 |
CN108549954A (zh) * | 2018-03-26 | 2018-09-18 | 平安科技(深圳)有限公司 | 风险模型训练方法、风险识别方法、装置、设备及介质 |
CN108648091A (zh) * | 2018-05-16 | 2018-10-12 | 中国平安人寿保险股份有限公司 | 保单风险评估方法、装置、设备和计算机存储介质 |
CN108694520A (zh) * | 2018-07-02 | 2018-10-23 | 平安健康保险股份有限公司 | 理赔客户风险识别方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859371A (zh) * | 2020-07-22 | 2020-10-30 | 广州大学 | 一种应用程序的隐私风险评估方法、装置及存储介质 |
CN112017064A (zh) * | 2020-08-26 | 2020-12-01 | 上海爱佰医疗科技发展有限公司 | 适用于辅助生殖保险的投保建议评估方法及装置 |
CN113592058A (zh) * | 2021-07-05 | 2021-11-02 | 西安邮电大学 | 一种定量预测微博转发广度与深度的方法 |
CN113592058B (zh) * | 2021-07-05 | 2024-03-12 | 西安邮电大学 | 一种定量预测微博转发广度与深度的方法 |
CN114301713A (zh) * | 2021-12-30 | 2022-04-08 | 中国工商银行股份有限公司 | 风险访问检测模型的训练方法、风险访问检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 | |
CN111222994A (zh) | 客户风险评估方法、装置、介质和电子设备 | |
CN110609941B (zh) | 互联网操作事件的风险识别方法及装置 | |
KR102168198B1 (ko) | 기업 부도 예측 시스템 및 이의 동작 방법 | |
CN108596410B (zh) | 一种风控事件自动处理方法及装置 | |
CN110503566B (zh) | 风控模型建立方法、装置、计算机设备及存储介质 | |
KR102330423B1 (ko) | 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템 | |
CN110399268A (zh) | 一种异常数据检测的方法、装置及设备 | |
CN110689211A (zh) | 网站服务能力的评估方法及装置 | |
CN110020939B (zh) | 建立违约损失率预测模型的装置、方法及存储介质 | |
CN114529400A (zh) | 一种消费贷款预授信评估方法、设备及介质 | |
TWM577148U (zh) | 評估金融風險的電子裝置 | |
CN110163470B (zh) | 事件评估方法及装置 | |
CN111160647A (zh) | 一种洗钱行为预测方法及装置 | |
CN110532773B (zh) | 恶意访问行为识别方法、数据处理方法、装置和设备 | |
CN116402546A (zh) | 店铺风险归因方法及其装置、设备、介质、产品 | |
CN117196646A (zh) | 一种供应商资质审核方法、设备及介质 | |
CN115860924A (zh) | 供应链金融信用风险预警方法及相关设备 | |
CN114049202A (zh) | 操作风险识别方法、装置、存储介质及电子设备 | |
Zang | Construction of Mobile Internet Financial Risk Cautioning Framework Based on BP Neural Network | |
CN113869423A (zh) | 一种营销响应模型构建方法、设备及介质 | |
CN113793007B (zh) | 数据交易权限控制方法、装置和设备 | |
CN114255125A (zh) | 交易风险判断方法、装置、存储介质以及电子装置 | |
CN117649236A (zh) | 交易的风险预测方法、装置及存储介质 | |
CN113723710A (zh) | 一种客户流失预测方法、系统、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |