CN109410074A - 智能核保方法与系统 - Google Patents
智能核保方法与系统 Download PDFInfo
- Publication number
- CN109410074A CN109410074A CN201811216477.8A CN201811216477A CN109410074A CN 109410074 A CN109410074 A CN 109410074A CN 201811216477 A CN201811216477 A CN 201811216477A CN 109410074 A CN109410074 A CN 109410074A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- node
- branch
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及保险领域,涉及一种智能核保方法,包括:获取投保用户包括体检数据在内的用户数据,进行数据处理和特征提取;对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据;根据k份训练数据构造CART决策树;根据若干个相互独立的决策树构造随机森林分类模型;在保险业务系统中导入随机森林分类模型,输入投保用户的用户数据并获得模型输出的投保建议。本发明还提出一种智能核保系统。本发明提取客户的特征并使用数据对随机森林分类模型进行训练,使用获得的核保模型对投保客户资料进行审核并产生投保建议,提供了一种智能审核的快捷途径为保险公司提供有价值的决策判断,降低人力参与的部分,提高工作效率,降低人力成本。
Description
技术领域
本发明涉及保险领域,特别涉及一种智能核保方法与系统。
背景技术
保险核保是指保险人对投保申请进行审核,决定是否接受承保这一风险,并在接受承保风险的情况下,确定承保条件的过程。
简而言之,核保就是保险公司考核投保人的各种条件,考虑自己的风险承受能力,对不同的投保人进行区别对待。
保险公司通过核保,可以对不同风险的个体收取不同的费用,做到公平费率。
当前保险公司进行核保的时候通常聘请专门的人员进行处理,但是人工处理效率较低,而且核保过程依赖人员经验,可能存在问题。
发明内容
本发明的实施方式旨在至少解决现有技术中存在的技术问题之一。为此,本发明的实施方式需要提供一种智能核保方法与系统。
本发明实施方式的一种智能核保方法,其特征在于,包括:
步骤1,获取投保用户包括体检数据在内的用户数据,进行数据处理和特征提取;
步骤2,对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据;
步骤3,根据k份训练数据构造CART决策树;
步骤4,根据若干个相互独立的决策树构造随机森林分类模型;
步骤5,在保险业务系统中导入随机森林分类模型,输入投保用户的用户数据并获得模型输出的投保建议。
一种实施方式中,步骤1包括:
步骤11,获取投保用户包括体检数据在内的用户数据;
步骤12,通过离散化方法对用户数据中的多个连续特征进行离散处理;
步骤13,通过归一化方法对连续型特征进行无量纲化处理;
步骤14,通过哑编码方法将定性特征转换为定量特征。
一种实施方式中,步骤2包括:通过自助法对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据。
一种实施方式中,步骤3包括:
步骤31,确定分类标记集合;
步骤32,依据训练数据建立节点N;
步骤33,根据分类标记集合将属于同一个类的训练数据对应的节点标记出所属的类;
步骤34,将特征集为空的训练数据对应的节点依据少数服从多数的原则标记出所属的类;
步骤35,从M个特征中随机选m个特征以基尼系数最小的特征作为节点的分裂特征;其中,M表示特征集为空的训练数据的特征数量,m=sqrt(M)且满足条件m<<M;
步骤36,对分裂特征中的每个值,从N生成一个分支,将训练数据中与该分支有关的数据收集形成分支节点的训练数据,并删除分支节点对应的节点特征;
步骤37,若步骤36的分支训练数据中的特征非空,则转到步骤31从该分支节点建立子树。
一种实施方式中,步骤4包括:由若干个相互独立的决策树构造随机森林分类模型,在每个决策树中对输入的数据进行投票,对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。
本实施方式还提出一种智能核保系统,其特征在于,包括:
数据处理模块,用于获取投保用户包括体检数据在内的用户数据,进行数据处理和特征提取;
随机采样模块,用于对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据;
决策树构造模块,用于根据k份训练数据构造CART决策树;
随机森林模块,用于根据若干个相互独立的决策树构造随机森林分类模型;
核保模块,用于在保险业务系统中导入随机森林分类模型,输入投保用户的用户数据并获得模型输出的投保建议。
一种实施方式中,数据处理模块包括:
数据获取单元,用于获取投保用户包括体检数据在内的用户数据;
离散处理单元,用于通过离散化方法对用户数据中的多个连续特征进行离散处理;
归一化单元,用于通过归一化方法对连续型特征进行无量纲化处理;
哑编码单元,用于通过哑编码方法将定性特征转换为定量特征。
一种实施方式中,随机采样模块具体用于通过自助法对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据。
一种实施方式中,决策树构造模块包括:
确定单元,用于确定分类标记集合;
节点单元,用于依据训练数据建立节点N;
第一标记单元,用于将属于同一个类的训练数据对应的节点标记出所属的类;
第二标记单元,用于将特征集为空的训练数据对应的节点依据少数服从多数的原则标记出所属的类;
分裂特征单元,用于从M个特征中随机选m个特征以基尼系数最小的特征作为节点的分裂特征;其中,M表示特征集为空的训练数据的特征数量,m=sqrt(M)且满足条件m<<M;
分支节点单元,用于对分裂特征中的每个值,从N生成一个分支,将训练数据中与该分支有关的数据收集形成分支节点的训练数据,并删除分支节点对应的节点特征;
子树建立单元,用于若步骤36的分支训练数据中的特征非空,则转到步骤31从该分支节点建立子树。
一种实施方式中,随机森林模块具体用于由若干个相互独立的决策树构造随机森林分类模型,在每个决策树中对输入的数据进行投票,对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。
本发明实施方式的智能核保方法与系统,通过对用户数据的全面分析与处理,提取客户的特征并使用数据对随机森林分类模型进行训练,并获得最后的核保模型。然后使用这个核保模型,对保险行业投保客户的资料进行审核,并产生投保建议。该方法提供一种智能审核的快捷途径,通过这种途径可以为保险公司提供有价值的决策判断,降低人力参与的部分,提高工作效率,降低人力成本。
本发明的附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的实施方式的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明实施方式的智能核保方法的流程示意图;
图2是本发明实施方式的智能核保系统的组成示意图。
具体实施方式
下面详细描述本发明的实施方式,实施方式的示例在附图中示出,其中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅可用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
请参阅图1,本发明实施方式的智能核保方法,包括:
步骤1,获取投保用户包括体检数据在内的用户数据,进行数据处理和特征提取。
步骤2,对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据。
步骤3,根据k份训练数据构造CART决策树。
步骤4,根据若干个相互独立的决策树构造随机森林分类模型。
步骤5,在保险业务系统中导入随机森林分类模型,输入投保用户的用户数据并获得模型输出的投保建议。
请参阅图2,本发明实施方式的智能核保系统,包括:数据处理模块、随机采样模块、决策树构造模块、随机森林模块和核保模块,其中各个模块介绍如下:
数据处理模块,用于获取投保用户包括体检数据在内的用户数据,进行数据处理和特征提取。
随机采样模块,用于对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据。
决策树构造模块,用于根据k份训练数据构造CART决策树。
随机森林模块,用于根据若干个相互独立的决策树构造随机森林分类模型。
核保模块,用于在保险业务系统中导入随机森林分类模型,输入投保用户的用户数据并获得模型输出的投保建议。
在该实施方式中,智能核保方法以智能核保系统作为步骤的执行对象,或者以系统内的各个模块作为步骤的执行对象。具体地,步骤1以数据处理模块作为步骤的执行对象,步骤2以随机采样模块作为步骤的执行对象,步骤3以决策树构造模块作为步骤的执行对象,步骤4以随机森林模块作为步骤的决策对象,步骤5以核保模块作为步骤的执行对象。
步骤1中,投标客户的用户数据包括有性别、年龄、身高、体重、舒张压、收缩压、发育、胸廓、肺部、心界、心音、节律、杂音、腹部包块、腹部压痛、肝、脾、神经系统、脉搏、胸围、腹围、臀围、腰围、皮肤、淋巴结、外周血管、头面部、甲状腺、四肢、脊椎、泌尿生殖器官、肛门、晶体、视力(右)、视力(左)、眼底、外眼(右)、外眼(左)、听力(右)、听力(左)、耳部、扁桃体等特征。对特征需要进行数据处理和特征提取,所以步骤1包括:
步骤11,获取投保用户包括体检数据在内的用户数据。
步骤12,通过离散化方法对用户数据中的多个连续特征进行离散处理。
步骤13,通过归一化方法对连续型特征进行无量纲化处理。
步骤14,通过哑编码方法将定性特征转换为定量特征。
对应地,智能核保系统中数据处理模块包括:
数据获取单元,用于获取投保用户包括体检数据在内的用户数据。
离散处理单元,用于通过离散化方法对用户数据中的多个连续特征进行离散处理。
归一化单元,用于通过归一化方法对连续型特征进行无量纲化处理。
哑编码单元,用于通过哑编码方法将定性特征转换为定量特征。
步骤11至步骤14可以由数据处理模块作为步骤的执行对象,也可以由模块的各个单元作为步骤的执行对象。具体地,步骤11可以由数据获取单元作为步骤的执行对象,步骤12可以由离散处理单元作为步骤的执行对象,步骤13可以由归一化单元作为步骤的执行对象,步骤14可以由哑编码单元作为步骤的执行对象。
步骤12中,离散特征的增加和减少都很容易,易于快速迭代;离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会造成很大的干扰;并且特征离散化后,模型会更稳定。
步骤13中,在进行特征选择之前,一般会先进行数据无量纲化处理,这样,表征不同属性(单位不同)的各特征之间才有可比性。
步骤14中,哑编码方法对问题描述更简明,而且接近现实。如果某个因素有n种选择,则将其用哑变量引入模型时,要设置n-1个哑变量,以避免完全的多重共线性。
经过上述数据处理和特征提取,在步骤2中,随机采样模块通过自助法对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据。自助法,又称为Bootstrap法,是以原始数据为基础的模拟抽样统计推断法,可用于研究一组数据的某统计量的分布特征,特别适用于那些难以用常规方法导出对参数的区间估计、假设检验等问题。其基本思想是:在原始数据的范围内作有放回的再抽样,样本容量仍为k,原始数据中每个观察单位每次被抽到的概率相等,为1/k,所得样本称为Bootstrap样本。假如有投保客户数据里有i个样本,则有放回的随机选择i个样本,其中每次随机选择一个样本,然后放回进行下一次选择,这样形成有i个样本的训练数据。整个过程重复k次,就可以得到k份训练数据。
步骤3中,具体包括:
步骤31,确定分类标记集合。
步骤32,依据训练数据建立节点N。
步骤33,根据分类标记集合将属于同一个类的训练数据对应的节点标记出所属的类。
步骤34,将特征集为空的训练数据对应的节点依据少数服从多数的原则标记出所属的类。
步骤35,从M个特征中随机选m个特征以基尼系数最小的特征作为节点的分裂特征;其中,M表示特征集为空的训练数据的特征数量,m=sqrt(M)且满足条件m<<M。
步骤36,对分裂特征中的每个值,从N生成一个分支,将训练数据中与该分支有关的数据收集形成分支节点的训练数据,并删除分支节点对应的节点特征。
步骤37,若步骤36的分支训练数据中的特征非空,则转到步骤31从该分支节点建立子树。
相应地,智能核保系统中决策树构造模块包括:
确定单元,用于确定分类标记集合。
节点单元,用于依据训练数据建立节点N。
第一标记单元,用于将属于同一个类的训练数据对应的节点标记出所属的类。
第二标记单元,用于将特征集为空的训练数据对应的节点依据少数服从多数的原则标记出所属的类。
分裂特征单元,用于从M个特征中随机选m个特征以基尼系数最小的特征作为节点的分裂特征;其中,M表示特征集为空的训练数据的特征数量,m=sqrt(M)且满足条件m<<M。
分支节点单元,用于对分裂特征中的每个值,从N生成一个分支,将训练数据中与该分支有关的数据收集形成分支节点的训练数据,并删除分支节点对应的节点特征。
子树建立单元,用于若步骤36的分支训练数据中的特征非空,则转到步骤31从该分支节点建立子树。
步骤31至步骤37可以由决策树构造模块作为步骤的执行对象,也可以由模块内的单元作为步骤的执行对象。具体地,步骤31由确定单元作为步骤的执行对象,步骤32由节点单元作为步骤的执行对象,步骤33由第一标记单元作为步骤的执行对象,步骤34由第二标记单元作为步骤的执行对象,步骤35由分裂特征单元作为步骤的执行对象,步骤36由分支节点单元作为步骤的执行对象,步骤37由子树建立单元作为步骤的执行对象。
如表格1所示,保险公司提供的投保客户数据如下:
性别 | 年龄 | 身高 | 体重 | 舒张压 | 收缩压 | 发育 | 胸廓 | …… | 审核结果 |
男 | 35 | 163 | 60 | 131 | 72 | 正常 | 无畸形 | …… | 通过 |
男 | 33 | 156 | 57 | 125 | 71 | 正常 | 无畸形 | …… | 不通过 |
男 | 24 | 177 | 73 | 107 | 70 | 正常 | 无畸形 | …… | 不通过 |
女 | 54 | 176 | 79.5 | 100 | 70 | 正常 | 无畸形 | …… | 不通过 |
女 | 42 | 159.5 | 71 | 100 | 80 | 正常 | 无畸形 | …… | 通过 |
表格1
其中有100个特征,和一个分类信息,分类标记为“通过”和“不通过”。
本方法中使用的决策树模型为CART树,其构造过程如下:
步骤31,决定分类标记集合,以审核结果为例,集合为{“通过”,“不通过”}
步骤32,对目前的训练数据,建立一个节点N。
步骤33,如果训练数据都属于同一个类,N就是树叶,在树叶上标出所属的类。
以投保客户数据为例,如果剩余的数据的审核结果都是“通过”,则这个节点就是树叶,值为“通过”。
步骤34,如果训练数据中没有其他特征可以考虑(特征集为空),则N也是树叶,按照少数服从多数的原则在树叶上标出所属类别。
以投保客户数据为例,如果剩余数据只有一个性别特征,那么这个节点下面的两个分支为“男”和“女”,然后每个分支都没有其他特征可以继续分下去了,于是这两个节点也是树叶,取分类标记数量最多那个作为树叶的值。
在35,否则,设样本的特征数量为M,从中随机选m个特征(m=sqrt(M),满足条件m<<M)),然后从这m个特征中采用基尼系数最小的那个特征作为为该节点的分裂特征。以投保客户数据为例,就是从100个特征里随机选10个,然后从这10特征中,根据特征的基尼系数选择一个最小的值作为这个根节点的分裂特征,然后以这10个特征为基本特征,往下生成树枝。
步骤36,选定分裂特征后,对于该特征中的每个值:从N生成一个分支,并将训练数据中与该分支有关的数据收集形成分支节点的训练数据,并删除节点特征那一栏。
以投保客户数据为例,譬如选定的特征为性别,特征的取值为“男”和“女”,则从这个节点先生成一个分支“男”,把训练数据中性别特征取值为男的数据都归到这个分支,并删除性别那一行。
步骤37,如果分支训练数据特征非空,则转步骤31,运用以上算法从该节点建立子树。
对于步骤35中的基尼系数,在分类问题中,假设有K个类,样本属于第k类的概率为Pk,则概率分布的基尼系数数定义为:
Gini(p)=∑Pk(1-Pk)=1-∑Pk 2
对于二分类问题,若样本点属于第1个类的概率是p,则概率分布的基尼系数为:
Gini)p)=2p(1-p)
对于给定的样本集,其基尼系数为:
Gini(D)=1-∑(|Ck|/|D|)2
其中,Ck是D中属于第k类的样本子集,k是类的个数。
如果样本集合D根据特征A是否取到某一可能值a被分割成D1和D2两部分,则在特征A的条件下,集合D的基尼指数定义为:
基尼系数Gini(D)表示集合D的不确定性,基尼指数越大,样本集合的不确定性也就越大,所以在分裂属性时选择基尼系数小的属性。
以表格1的投保客户数据为例,则该样本的基尼系数为:
Gini(D)=2*0.4(1-0.4)=0.48
请参阅表格2和表格3。将表格1中的投保客户数据根据特征“性别”是否可能取值为“男”可以被分割为下面两个数据集D1和D2:
性别 | 年龄 | 身高 | 体重 | 舒张压 | 收缩压 | 发育 | 胸廓 | …… | 审核结果 |
男 | 35 | 163 | 60 | 131 | 72 | 正常 | 无畸形 | …… | 通过 |
男 | 33 | 156 | 57 | 125 | 71 | 正常 | 无畸形 | …… | 不通过 |
男 | 24 | 177 | 73 | 107 | 70 | 正常 | 无畸形 | …… | 不通过 |
表格2
性别 | 年龄 | 身高 | 体重 | 舒张压 | 收缩压 | 发育 | 胸廓 | …… | 审核结果 |
女 | 54 | 176 | 79.5 | 100 | 70 | 正常 | 无畸形 | …… | 不通过 |
女 | 42 | 159.5 | 71 | 100 | 80 | 正常 | 无畸形 | …… | 通过 |
表格3
计算在特征为“性别”的条件下,数据的基尼系数为:
Gini(D,“性别”)=3/5*Gini(D1)+2/5*Gini(D2)=3/5*4/9+2/5*1/4=0.41
对所有训练样本重复上述的过程,最终就可以得到k棵决策树。
步骤4中,具体包括:由若干个相互独立的决策树构造随机森林分类模型,在每个决策树中对输入的数据进行投票,对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。
随机森林分类模型的最终输出就是一个由若干个相互独立的决策树组成的强分类器,这些决策树对输入的数据进行判断并输出最终的分类结果,这个过程称为投票;随机森林分类模型对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。
在本方法中,主要是对投保客户进行审核,输出的分类结果为审核结果:“通过”或“不通过”,所以形成的随机森林分类模型可以简述如下:
投票:将投保客户数据输入,每棵决策树对输入数据进行判断,输出各自的分类结果;
统计:对所有结果进行统计,数目最多的结果为最终的输出结果。
在步骤5中,将训练完的随机森林分类模型导出为文件,由业务系统进行导入和调用。业务系统通过输入投保客户的信息,获得由随机森林分类模型输出的投保建议。
本发明实施方式的智能核保方法与系统,通过对用户数据的全面分析与处理,提取客户的特征并使用数据对随机森林分类模型进行训练,并获得最后的核保模型。然后使用这个核保模型,对保险行业投保客户的资料进行审核,并产生投保建议。该方法提供一种智能审核的快捷途径,通过这种途径可以为保险公司提供有价值的决策判断,降低人力参与的部分,提高工作效率,降低人力成本。
本发明实施方式,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的实施方式的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本发明的各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种智能核保方法,其特征在于,包括:
步骤1,获取投保用户包括体检数据在内的用户数据,进行数据处理和特征提取;
步骤2,对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据;
步骤3,根据k份训练数据构造CART决策树;
步骤4,根据若干个相互独立的决策树构造随机森林分类模型;
步骤5,在保险业务系统中导入随机森林分类模型,输入投保用户的用户数据并获得模型输出的投保建议。
2.如权利要求1所述智能核保方法,其特征在于,步骤1包括:
步骤11,获取投保用户包括体检数据在内的用户数据;
步骤12,通过离散化方法对用户数据中的多个连续特征进行离散处理;
步骤13,通过归一化方法对连续型特征进行无量纲化处理;
步骤14,通过哑编码方法将定性特征转换为定量特征。
3.如权利要求2所述智能核保方法,其特征在于,步骤2包括:通过自助法对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据。
4.如权利要求3所述智能核保方法,其特征在于,步骤3包括:
步骤31,确定分类标记集合;
步骤32,依据训练数据建立节点N;
步骤33,根据分类标记集合将属于同一个类的训练数据对应的节点标记出所属的类;
步骤34,将特征集为空的训练数据对应的节点依据少数服从多数的原则标记出所属的类;
步骤35,从M个特征中随机选m个特征以基尼系数最小的特征作为节点的分裂特征;其中,M表示特征集为空的训练数据的特征数量,m=sqrt(M)且满足条件m<<M;
步骤36,对分裂特征中的每个值,从N生成一个分支,将训练数据中与该分支有关的数据收集形成分支节点的训练数据,并删除分支节点对应的节点特征;
步骤37,若步骤36的分支训练数据中的特征非空,则转到步骤31从该分支节点建立子树。
5.如权利要求4所述智能核保方法,其特征在于,步骤4包括:由若干个相互独立的决策树构造随机森林分类模型,在每个决策树中对输入的数据进行投票,对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。
6.一种智能核保系统,其特征在于,包括:
数据处理模块,用于获取投保用户包括体检数据在内的用户数据,进行数据处理和特征提取;
随机采样模块,用于对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据;
决策树构造模块,用于根据k份训练数据构造CART决策树;
随机森林模块,用于根据若干个相互独立的决策树构造随机森林分类模型;
核保模块,用于在保险业务系统中导入随机森林分类模型,输入投保用户的用户数据并获得模型输出的投保建议。
7.如权利要求6所述智能核保系统,其特征在于,数据处理模块包括:
数据获取单元,用于获取投保用户包括体检数据在内的用户数据;
离散处理单元,用于通过离散化方法对用户数据中的多个连续特征进行离散处理;
归一化单元,用于通过归一化方法对连续型特征进行无量纲化处理;
哑编码单元,用于通过哑编码方法将定性特征转换为定量特征。
8.如权利要求7所述智能核保系统,其特征在于,随机采样模块具体用于通过自助法对用户数据的i个样本进行随机采样并重复k次,形成k份训练数据。
9.如权利要求8所述智能核保系统,其特征在于,决策树构造模块包括:
确定单元,用于确定分类标记集合;
节点单元,用于依据训练数据建立节点N;
第一标记单元,用于将属于同一个类的训练数据对应的节点标记出所属的类;
第二标记单元,用于将特征集为空的训练数据对应的节点依据少数服从多数的原则标记出所属的类;
分裂特征单元,用于从M个特征中随机选m个特征以基尼系数最小的特征作为节点的分裂特征;其中,M表示特征集为空的训练数据的特征数量,m=sqrt(M)且满足条件m<<M;
分支节点单元,用于对分裂特征中的每个值,从N生成一个分支,将训练数据中与该分支有关的数据收集形成分支节点的训练数据,并删除分支节点对应的节点特征;
子树建立单元,用于若步骤36的分支训练数据中的特征非空,则转到步骤31从该分支节点建立子树。
10.如权利要求9所述智能核保系统,其特征在于,随机森林模块具体用于由若干个相互独立的决策树构造随机森林分类模型,在每个决策树中对输入的数据进行投票,对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811216477.8A CN109410074A (zh) | 2018-10-18 | 2018-10-18 | 智能核保方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811216477.8A CN109410074A (zh) | 2018-10-18 | 2018-10-18 | 智能核保方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109410074A true CN109410074A (zh) | 2019-03-01 |
Family
ID=65467665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811216477.8A Pending CN109410074A (zh) | 2018-10-18 | 2018-10-18 | 智能核保方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109410074A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517151A (zh) * | 2019-08-29 | 2019-11-29 | 中国农业银行股份有限公司 | 一种产品推荐方法及系统 |
CN110880149A (zh) * | 2019-11-29 | 2020-03-13 | 上海商汤智能科技有限公司 | 信息处理方法及装置、电子设备和存储介质 |
CN112487033A (zh) * | 2020-11-30 | 2021-03-12 | 国网山东省电力公司电力科学研究院 | 一种面向数据流及构建网络拓扑的业务可视化方法及系统 |
CN113569904A (zh) * | 2021-06-10 | 2021-10-29 | 国电南瑞科技股份有限公司 | 母线接线类型辨识方法、系统、存储介质及计算设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9842175B2 (en) * | 2007-01-04 | 2017-12-12 | Minitab, Inc. | Methods and systems for automatic selection of classification and regression trees |
CN107679994A (zh) * | 2017-07-26 | 2018-02-09 | 平安科技(深圳)有限公司 | 核保决策树的创建方法、装置、计算机设备及存储介质 |
CN107862347A (zh) * | 2017-12-04 | 2018-03-30 | 国网山东省电力公司济南供电公司 | 一种基于随机森林的窃电行为的发现方法 |
CN108388860A (zh) * | 2018-02-12 | 2018-08-10 | 大连理工大学 | 一种基于功率熵谱-随机森林的航空发动机滚动轴承故障诊断方法 |
CN108537281A (zh) * | 2018-04-13 | 2018-09-14 | 贵州电网有限责任公司 | 一种基于随机森林的电力用户特征识别分类方法 |
-
2018
- 2018-10-18 CN CN201811216477.8A patent/CN109410074A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9842175B2 (en) * | 2007-01-04 | 2017-12-12 | Minitab, Inc. | Methods and systems for automatic selection of classification and regression trees |
CN107679994A (zh) * | 2017-07-26 | 2018-02-09 | 平安科技(深圳)有限公司 | 核保决策树的创建方法、装置、计算机设备及存储介质 |
CN107862347A (zh) * | 2017-12-04 | 2018-03-30 | 国网山东省电力公司济南供电公司 | 一种基于随机森林的窃电行为的发现方法 |
CN108388860A (zh) * | 2018-02-12 | 2018-08-10 | 大连理工大学 | 一种基于功率熵谱-随机森林的航空发动机滚动轴承故障诊断方法 |
CN108537281A (zh) * | 2018-04-13 | 2018-09-14 | 贵州电网有限责任公司 | 一种基于随机森林的电力用户特征识别分类方法 |
Non-Patent Citations (1)
Title |
---|
周鸣争,陶皖: "《大数据导论》", 31 March 2018 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517151A (zh) * | 2019-08-29 | 2019-11-29 | 中国农业银行股份有限公司 | 一种产品推荐方法及系统 |
CN110880149A (zh) * | 2019-11-29 | 2020-03-13 | 上海商汤智能科技有限公司 | 信息处理方法及装置、电子设备和存储介质 |
CN112487033A (zh) * | 2020-11-30 | 2021-03-12 | 国网山东省电力公司电力科学研究院 | 一种面向数据流及构建网络拓扑的业务可视化方法及系统 |
CN113569904A (zh) * | 2021-06-10 | 2021-10-29 | 国电南瑞科技股份有限公司 | 母线接线类型辨识方法、系统、存储介质及计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198615B (zh) | 一种在线认知评估系统 | |
Chen et al. | Accurate EEG-based emotion recognition on combined features using deep convolutional neural networks | |
CN109410074A (zh) | 智能核保方法与系统 | |
CN108806792B (zh) | 深度学习面诊系统 | |
CN107247971B (zh) | 一种超声甲状腺结节风险指标的智能分析方法及系统 | |
CN109036553A (zh) | 一种基于自动抽取医疗专家知识的疾病预测方法 | |
CN110491480A (zh) | 一种医疗图像处理方法、装置、电子医疗设备和存储介质 | |
CN108305690A (zh) | 神经系统疾病分诊方法及神经系统疾病的分诊系统 | |
Chen et al. | Have econometric analyses of happiness data been futile? A simple truth about happiness scales | |
CN109949929A (zh) | 一种基于深度学习大规模病历的辅助诊断系统 | |
CN110353675A (zh) | 基于图片生成的脑电信号情感识别方法及装置 | |
CN108898476A (zh) | 一种贷款客户信用评分方法和装置 | |
CN111080579B (zh) | 基于深度学习实现图像分割和分类的骨龄评估方法 | |
CN111785366B (zh) | 患者治疗方案的确定方法、装置及计算机设备 | |
CN110706822B (zh) | 基于逻辑回归模型和决策树模型的健康管理方法 | |
CN102421357A (zh) | 基于传统中医(tcm)原理确定皮肤组成的电脑辅助诊断系统和方法 | |
CN111430025B (zh) | 一种基于医疗影像数据扩增的疾病诊断模型训练方法 | |
CN112641451B (zh) | 基于单通道脑电信号多尺度残差网络睡眠分期方法及系统 | |
CN108280164A (zh) | 一种基于类别相关单词的短文本过滤与分类方法 | |
CN110223749A (zh) | 基于pcnn网络和注意力机制的中医辨证辅助决策方法 | |
Gerhana et al. | Comparison of naive Bayes classifier and C4. 5 algorithms in predicting student study period | |
CN111651584A (zh) | 一种基于用户行为特征及文章属性的保险文章推荐方法 | |
CN113243924A (zh) | 基于脑电信号通道注意力卷积神经网络的身份识别方法 | |
CN114732424B (zh) | 基于表面肌电信号提取肌肉疲劳状态复杂网络属性的方法 | |
CN117708306B (zh) | 基于层进式问答结构的医学问答架构生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |
|
RJ01 | Rejection of invention patent application after publication |