CN108053129A

CN108053129A - 保险数据分析系统

Info

Publication number: CN108053129A
Application number: CN201711421549.8A
Authority: CN
Inventors: 赵昕; 涂闪; 毛耀鋆; 张鲁嘉; 廖剑斌; 杨葭驹; 杨明锋
Original assignee: Hangzhou Seven Kyung Mdt Infotech Ltd
Current assignee: Shanghai Qihuang Information Technology Co., Ltd.
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-05-18

Abstract

本发明涉及一种分析系统，尤其涉及一种保险数据分析系统。按以下步骤进行：风险维度分析模块→折扣费用模拟→销售规则管理模块。一种保险数据分析系统，计算快速，进一步提升分析能力，提高精确度。

Description

保险数据分析系统

技术领域

本发明涉及一种分析系统，尤其涉及一种保险数据分析系统。

背景技术

理赔欺诈检测是是业界和技术界的难题。传统方法大多依赖于简单的统计，简单的统计具有很多问题，首先统计具有难以克服的缺点：统计因素无法深入到元素之间的关系层面，统计检测的偶然性、地域消费水平差异、高级权限因素都可能使得统计方法有较大的偏差；而其他智能算法都没有较好的效果，无法满足反欺诈检测的需求。

对于保险经营，有若干关键性问题需要科学化度量、分析、决策。分别是：风险维度的分析、折扣费用的模拟、销售指引的确定。市面上的公开算法均不符合保险业界和我司的需求，比如ID3算法无法处理连续性数据、C4.5算法把变量分为多叉而不是二叉、Cart树算法每层使用的变量均不同。

发明内容

本发明主要是解决现有技术中存在的不足，提供一种机器学习算法与科学保险经营进行良好结合，以专业化、可视化、智能化的产品全面提升保险公司业务分析和业务决策能力的一种保险数据分析系统。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种保险数据分析系统，按以下步骤进行：

(一)、风险维度分析模块：

风险维度分析包括风险因子切分、经营结果展示两个步骤；风险维度分析模块是指在单个维度层面上，分析风险、经营这两个层面与单维度变量的关系；风险维度分析是一切分析工作的基础，这对于后续分析建模、现象解释、经营指导等具有重要意义；

风险因子切分，是指对单维度变量进行分组或者切分，在不同的离散分组或者连续切分组上进行风险或者经营结果的汇总，以明确单维度变量与风险和经营的关系；离散变量的切分需要指定分组规则，规定哪些变量分为一组；连续变量的切分需要指定切分点；

第一步选择机构名称；第二步选择选择业务类型；第三部点集当前风险因子选择需要切分的风险因子；风险因子有两种类型：离散和连续连续变量的切分方法是点击“添加切分”按钮；在添加切分上的输入框中，输入切分点；这样，可以添加多个切分点，添加完毕切分点后，点击查看结果，界面右边显示出切分的结果；点击保存结果，结果会被保存下来；如果需要重新切分，点击重置切分按钮；离散变量分组；首先在风险因子选择中选择一个离散变量；比如车辆类型；在添加切分左侧的输入框中输入分组名，比如“货车类”，然后点击添加气氛按钮，随后在“对变量车辆类型的切分”这个框中点击变量，点击的变量将会被分组到货车类这个大类中。随后同连续变量一样，可以点击查看结果，保存结果，以及重置切分；

风险切分完毕后，进行经营结果展示，展示在单变量分组结果上经营和风险的细节；

风险切分的技术原理展示如下：

假设数据总量为n，单维度变量为(x₁，x₂,…x_n)，对应的需要分析的目标变量为(y₁，y₂，…，y_n)，假设单维度的变量分为C组，每组的集合为 set₁，set₂，…set_C，设每组目标变量汇总值为t₁，t₂，…t_C，

计算方法为：

上述公式的物理含义是把归于特定分组的对应的目标变量求平均；

(二)、折扣费用模拟：

折扣费用模块包括业务单元分组、业务分组模拟、业务单元汇总三个步骤；

业务单元分组为在指定维度上，对数据进行分组，这里的指定维度为渠道或者三级机构；首先选择二级机构、业务类型、分组维度；初始状态下，所有数据都是显示在“未分组数据”条目下；此时，在创建分组左边的输入框中，输入组名，点击创建分组；此时点击未分组数据右边的加号，选中的数据将被分到刚才输入的组名中；按照此方法把所有未分组数据进行分组；

业务分组模拟首先需要指定需要达到的目标赔付率和目标费用率，系统可以智能地计算每个保单的折扣和费用，以达到经营目标；选择一个分组，然后需要填入赔付率，费用率的空缺，这里允许用户两种选择：直接定义建议赔付率或者建议费用率，系统自动算出不同渠道的赔付率和费用率，或者直接自定义赔付率和费用率。随后进入折扣模拟阶段；渠道系数和核保系数因为是国家规定，暂且不动；如果政策改变，这里也可以自定义比率；模拟方案可以选择地板价和固定折扣两个选项，一般情况下选择地板价；折扣模拟结束之后，进入费用模拟阶段；费用模拟时，首先填写费用预算分配；填写商业险和交强险的费用预算；此时点击费用模拟按钮，系统会计算出建议费用率和费用模拟结果；

业务单元汇总即把所有的保单汇总到指定的数量组上，在指定的数量组上展示折扣、费用；在分组结果展示板块中，选择分组来展示结果；每一组的建议折扣和建议费用是不同的；

对于保险经营来说，保单折扣和保单费用的计算具有很强的专业性，一张保单的折扣和费用的制定需要考虑以下要素：承保标的的风险情况，公司发展目标，公司经营策略，监管机构的范围限制，市场竞争情况；保单折扣制定需要体现承保标的的风险情况，风险越大，给出的折扣越高；也需要与公司的发展目标一致，经营目标越激进，给出的折扣越低；保单折扣的范围需要符合监管机构要求，不能超出监管指定的范围；保单费用的配比要需要结合保单的赔付成本情况，赔付越高，费用越少；费用的投放需要符合市场渠道商对费用的需求，同时也需要符合公司对外政策的一致性；费用和赔付共同构成边际成本，两者共同确定了保险公司经营发展的目标；保险经营中保单定价的折扣费用计算是一个非常复杂的的过程，此过程需求满足多方面的约束条件，同时兼顾数学上的最优化求解和业务中的实际需求；

达到目标赔付率要落实到控制保费上，逐单保费的定价是很困难的事情具有诸多约束条件：

1)、保费必须在基准保费的0.6375～1.3225范围内；

2)、保费计算需要考虑是否交商贴补；

3)、保费计算需要给出地板价方案以及允许用户自定义折扣；

4)、保费计算必须和风险挂钩，风险越大，保费越大；

5)、保费总和必须能够达到目标赔付率的要求；

逐单控制费用也是很有难度的问题：

1)、费用要在业务人员指定的范围之内，比如0％～50％；

2)、费用要和风险挂钩，风险越大，费用越小；

3)、费用要分为商业险费用和交强险费用；

4)、费用总和要满足目标费用率的要求，费用和赔付总和要达到边际成本的要求。；

核心算法如下：

假设有n个保单，预测赔付分别为loss₁,loss₂,…loss_n,保费为manprem₁，manprem₂，…manprem_n，假设规模赔付因子是x，设渠道最小系数、渠道最大系数、核保最小系数、核保最大系数分别为q_min，q_max，h_min，h_max，设目标赔付率为lr，则本算法解决以下优化问题：

其中

x_min≤x≤x_max

其中x_min、x_max分别为规模赔付因子的最小最大范围；

通过求解上述优化问题，可以获得每个保单的保费T_i；

假设有n个保单，边际成本为mc，预测赔付分别为loss₁，loss₂，…loss_n，保费为manprem₁，manprem₂，…manprem_n，设目标费用率为ratio，每单费用率为 ratio₁，ratio₂，…ratio_n，则：

R_i＝min(max(low_bound，ratio_i)，high_bound)

初始时low_bound＝ratio/2，high_bound可以通过搜索得到；通过求解上述优化问题，当每个Ri找到之后，每个保单的费用率即可以确定；

(三)、销售规则管理模块：

这个模块包括销售规则生成、销售规则调整、销售规则回溯；

销售规则生成是指对保险公司数据做决策树建模，具体是指保险赔付数据和投保对象的各个属性(比如驾驶员年龄，车辆类型、载重量等)建模；决策树模型，就是根据一些自变量，建立一颗树，来预测目标变量的模型；

销售规则计算需要选中一些变量，设置规则参数变量个数和最小车辆数，然后点击生成销售规则；

销售规则调整是指可以在底部展现计算出来的规则时，客户可以调整销售规则中的折扣和费用；

销售规则回溯：目的主要是让用户搜索曾经计算过的规则指引；用户通过设置分组条件、分组、选择指定销售规则历史版本、选择回溯时间；当这些条件选择完毕后，点击销售规则回溯；即可回溯相应版本；

关键步骤是销售规则的生成，保险业界数据和建模有其自己的特点:

1)保险业界数据连续型和离散型数据并存；

2)保险业界模型要不失准确性的前提下足够简洁；

3)保险建模要求可以手动选择各个层的特征；

决策树建模的框架如下：

第一步，根节点设为树的第一层：

根节点上的对应数据为全部数据；

根节点上的目标值为全部数据理赔变量的均值；

备选特征为原始变量集合x_list；

第二步，逐层寻找层内最优变量，并分裂层内节点；

遍历层数，作如下操作：

a)寻找深度在符合要求的所有节点；

b)在节点集合上寻找最优特征：如果建树模式是自动方式，在备选特征中，采用自主研发的“层内增益算法”寻找最优特征；如果是手

动方式，则选取x_list的第一个特征作为最优特征；

c)采用b)中找到的最优特征，采用自主研发的“特征增益算法”，

对层内的每个节点尝试做二叉分裂；

d)备选特征中删去b)中筛选出来的特征；

假设层内有d个节点：分别为node₁,node₂,…node_d，节点上的样本个数为 n₁，n₂，…n_d有m个备选特征：f₁，f₂，…，f_m采用如下公式选择最优特征：

其中gain_ij表示特征i在节点j上产生的增益；增益计算方法如下：

其中n为样本个数；k1，k2分别为set1，set2中元素个数；x_ti表示样本x_t的目标变量的值。

因此，本发明一种保险数据分析系统，计算快速，进一步提升分析能力，提高精确度。

附图说明

图1是本发明的系统流程图。

具体实施方式

下面通过实施例，对本发明的技术方案作进一步具体的说明。

实施例1：一种保险数据分析系统，按以下步骤进行：

(一)、风险维度分析模块：

风险切分的技术原理展示如下：

计算方法为：

(二)、折扣费用模拟：

1)、保费必须在基准保费的0.6375～1.3225范围内；

2)、保费计算需要考虑是否交商贴补；

4)、保费计算必须和风险挂钩，风险越大，保费越大；

5)、保费总和必须能够达到目标赔付率的要求；

逐单控制费用也是很有难度的问题：

1)、费用要在业务人员指定的范围之内，比如0％～50％；

2)、费用要和风险挂钩，风险越大，费用越小；

3)、费用要分为商业险费用和交强险费用；

核心算法如下：

假设有n个保单，预测赔付分别为loss₁,loss₂,…loss_n，保费为manprem₁，manprem₂，…manprem_n，假设规模赔付因子是x，设渠道最小系数、渠道最大系数、核保最小系数、核保最大系数分别为q_min，q_max，h_min，h_max，设目标赔付率为lr，则本算法解决以下优化问题：

其中

x_min≤x≤x_max

其中x_min、x_max分别为规模赔付因子的最小最大范围；

通过求解上述优化问题，可以获得每个保单的保费T_i；

R_i＝min(max(low_bound，ratio_i)，high_bound)

(三)、销售规则管理模块：

1)保险业界数据连续型和离散型数据并存；

2)保险业界模型要不失准确性的前提下足够简洁；

3)保险建模要求可以手动选择各个层的特征；

决策树建模的框架如下：

第一步，根节点设为树的第一层：

根节点上的对应数据为全部数据；

根节点上的目标值为全部数据理赔变量的均值；

备选特征为原始变量集合x_list；

第二步，逐层寻找层内最优变量，并分裂层内节点；

遍历层数，作如下操作：

a)寻找深度在符合要求的所有节点；

b)在节点集合上寻找最优特征：如果建树模式是自动方式，在备选特征中，采用自主研发的“层内增益算法”寻找最优特征；如果是手动方式，则选取x_list的第一个特征作为最优特征；

c)采用b)中找到的最优特征，采用自主研发的“特征增益算法”，对层内的每个节点尝试做二叉分裂；

d)备选特征中删去b)中筛选出来的特征；

假设层内有d个节点：分别为node₁,node₂,…node_d，节点上的样本个数为 n₁，n₂，…n_d.有m个备选特征：f₁，f₂，…f_m.采用如下公式选择最优特征：

Claims

1.一种保险数据分析系统，其特征在于按以下步骤进行：

(一)、风险维度分析模块：

风险切分的技术原理展示如下：

假设数据总量为n，单维度变量为(x₁，x₂，…x_n)，对应的需要分析的目标变量为(y₁，y₂，…，y_n)，假设单维度的变量分为C组，每组的集合为set₁，set₂，…set_C，设每组目标变量汇总值为t₁，t₂，…t_C，

计算方法为：

<mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>n</mi> <mi>i</mi> </msub> </mfrac> <munder> <munder> <mo>&Sigma;</mo> <mi>j</mi> </munder> <mrow> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>set</mi> <mi>c</mi> </msub> </mrow> </munder> <msub> <mi>y</mi> <mi>j</mi> </msub> </mrow>

(二)、折扣费用模拟：

1)、保费必须在基准保费的0.6375～1.3225范围内；

2)、保费计算需要考虑是否交商贴补；

4)、保费计算必须和风险挂钩，风险越大，保费越大；

5)、保费总和必须能够达到目标赔付率的要求；

逐单控制费用也是很有难度的问题：

1)、费用要在业务人员指定的范围之内，比如0％～50％；

2)、费用要和风险挂钩，风险越大，费用越小；

3)、费用要分为商业险费用和交强险费用；

核心算法如下：

假设有n个保单，预测赔付分别为loss₁，loss₂，…loss_n，保费为manprem₁，manprem₂，…manprem_n，假设规模赔付因子是x，设渠道最小系数、渠道最大系数、核保最小系数、核保最大系数分别为q_min,q_max,h_min,h_max，设目标赔付率为lr，则本算法解决以下优化问题：

<mrow> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>loss</mi> <mi>i</mi> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>T</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>=</mo> <mi>l</mi> <mi>r</mi> </mrow>

其中

x_min≤x≤x_max

其中x_min、x_max分别为规模赔付因子的最小最大范围；

通过求解上述优化问题，可以获得每个保单的保费T_i；

假设有n个保单，边际成本为mc，预测赔付分别为loss₁，loss₂，…loss_n，保费为manprem₁，manprem₂，…manprem_n，设目标费用率为ratio，每单费用率为ratio₁，ratio₂，…ratio_n，则：

<mrow> <msub> <mi>ratio</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>m</mi> <mi>c</mi> <mo>-</mo> <mfrac> <mrow> <msub> <mi>loss</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>T</mi> <mi>i</mi> </msub> </mfrac> </mrow>

<mrow> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>max</mi> <mrow> <mo>(</mo> <mi>min</mi> <mo>(</mo> <mrow> <mfrac> <mrow> <msub> <mi>loss</mi> <mi>i</mi> </msub> </mrow> <mi>x</mi> </mfrac> <mo>,</mo> <msub> <mi>manprem</mi> <mi>i</mi> </msub> <mo>*</mo> <msub> <mi>q</mi> <mi>max</mi> </msub> <mo>*</mo> <msub> <mi>h</mi> <mi>max</mi> </msub> </mrow> <mo>)</mo> <mo>,</mo> <msub> <mi>manprem</mi> <mi>i</mi> </msub> <mo>*</mo> <msub> <mi>q</mi> <mi>min</mi> </msub> <mo>*</mo> <msub> <mi>h</mi> <mi>min</mi> </msub> <mo>)</mo> </mrow> </mrow>

R_i＝min(max(low_bound,ratio_i),high_bound)

<mrow> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>manprem</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>manprem</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>=</mo> <mi>r</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> </mrow>

初始时low_bound＝ratio/2,high_bound可以通过搜索得到；通过求解上述优化问题，当每个Ri找到之后，每个保单的费用率即可以确定；

(三)、销售规则管理模块：

1)保险业界数据连续型和离散型数据并存；

2)保险业界模型要不失准确性的前提下足够简洁；

3)保险建模要求可以手动选择各个层的特征；

决策树建模的框架如下：

第一步，根节点设为树的第一层：

根节点上的对应数据为全部数据；

根节点上的目标值为全部数据理赔变量的均值；

备选特征为原始变量集合x_list；

第二步，逐层寻找层内最优变量，并分裂层内节点；

遍历层数，作如下操作：

a)寻找深度在符合要求的所有节点；

d)备选特征中删去b)中筛选出来的特征；

假设层内有d个节点：分别为node₁,node₂,…node_d，节点上的样本个数为n₁，n₂，…n_d.有m个备选特征：f₁，f₂，…f_m.采用如下公式选择最优特征：

<mrow> <mi>i</mi> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>max</mi> </mrow> <mi>i</mi> </munder> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <mfrac> <msub> <mi>n</mi> <mi>j</mi> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>n</mi> <mi>k</mi> </msub> </mrow> </mfrac> <msub> <mi>gain</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>1</mn> <mo>,</mo> <mi>m</mi> <mo>&rsqb;</mo> </mrow>

<mrow> <mi>t</mi> <mi>m</mi> <mi>p</mi> <mo>_</mo> <mi>g</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mfrac> <msub> <mi>k</mi> <mn>1</mn> </msub> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>k</mi> <mn>1</mn> </msub> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>k</mi> <mn>1</mn> </msub> </munderover> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mfrac> <msub> <mi>k</mi> <mn>2</mn> </msub> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>k</mi> <mn>2</mn> </msub> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>k</mi> <mn>2</mn> </msub> </munderover> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>