CN113435513B - 基于深度学习的保险客户分群方法、装置、设备和介质 - Google Patents
基于深度学习的保险客户分群方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN113435513B CN113435513B CN202110723317.8A CN202110723317A CN113435513B CN 113435513 B CN113435513 B CN 113435513B CN 202110723317 A CN202110723317 A CN 202110723317A CN 113435513 B CN113435513 B CN 113435513B
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- deep neural
- training
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 140
- 238000003062 neural network model Methods 0.000 claims abstract description 131
- 238000012360 testing method Methods 0.000 claims abstract description 111
- 230000006870 function Effects 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及一种基于深度学习的保险客户分群方法、装置、设备和介质。该方法包括:基于Keras框架构建初始的深度神经网络模型;获取已营销客户的客户数据集;对客户数据集进行划分操作,得到多个训练测试组合;分别利用每个训练测试组合的训练集训练深度神经网络模型至收敛,并利用相对应的测试集测试深度神经网络模型的误差值,直至每次测试所得到的误差值均达到预设完成条件时,确定获得训练完成的深度神经网络模型;将待分群的保险客户的特征集输入所述训练完成的深度神经网络模型进行分群。本申请的基于深度学习的保险客户分群方法能够实现对保险客户的精确快速分群,为保险营销策略的制定提供参考和帮助,提升了营销效率,节约了人力成本。
Description
技术领域
本发明涉及人工智能领域,特别是涉及基于深度学习的保险客户分群方法、装置、计算机设备和存储介质。
背景技术
随着国家经济的快速发展,相关政策的支持以及全民保险意识的进一步升级,国内保险例如车险等保险需求的增长趋势十分明显。然而保险公司如何针对不同的类型的客户进行最有效的保险营销确一直是个难题。在传统的保险销售模式中,业务员对所有客户采用相同的销售策略,但是这种策略显然已经落后时代的步伐。近年来人工智能技术发展迅速,并且已经有很多行业与人工智能技术结合并取得进步。传统保险行业的营销业务员对不同的保险客户采用相同的营销策略,这种营销方式没有重点,没有针对性,既浪费了大量的人力又效率低下。现有的客户群体分群方法大多数基于传统聚类算法,比如k-means算法,然而这类算法容易受到离群客户点的影响导致模型分类精度不佳,此外简单的聚类算法无法充分挖掘客户特征中的非线性关联,导致分群效率低并且分群准确度低。
发明内容
基于此,有必要针对在现有技术中对保险客户进行分群时分群准确度低以及分群效率低的问题,提供一种基于深度学习的保险客户分群方法、装置、计算机设备和存储介质。
一种基于深度学习的保险客户分群方法,包括:
基于Keras框架构建初始的深度神经网络模型;
获取已营销客户的客户数据集;每个所述客户数据集包括类型标签和特征集;其中,具有同一所述类型标签的所述特征集属于同一个群;
对所述客户数据集进行划分操作,得到多个训练测试组合;每一所述训练测试组合包括训练集和测试集;
分别利用每个所述训练测试组合的所述训练集训练所述深度神经网络模型至收敛,并利用相对应的所述测试集测试所述深度神经网络模型的误差值,直至每次测试所得到的误差值均达到预设完成条件时,确定获得训练完成的深度神经网络模型;
将待分群的保险客户的特征集输入所述训练完成的深度神经网络模型进行分群。
在其中一个实施例中,所述对所述客户数据集进行划分操作,得到多个训练测试组合,包括:
将所述客户数据集划分为子数据集,其中,每个所述子数据集包括至少一个所述客户数据集;
对所有所述子数据集进行预设次数次划分,每次划分得到对应的所述训练测试组合。
在一个实施例中,所述训练所述深度神经网络模型至收敛,包括:
将所述训练集中的一个特征集输入深度神经网络模型中,输出类型;
根据输出的所述类型和真实类型确定损失值;
判断所述损失值是否满足预设阈值要求;
若不满足,则对所述深度神经网络模型的各层的网络参数进行调整,针对调整后的深度神经网络模型,转向所述将训练集中的一个特征集输入深度神经网络模型中,直至损失值缩小至阈值区间内为止;
若满足,则停止对所述深度神经网络模型的各层的网络参数的调整。
在一个实施例中,所述深度神经网络模型包括输入层、第一全连接层、结合层、第二全连接层、第三全连接层和输出层,所述第一全连接层、所述第二全连接层和所述第三全连接层均具有全连接函数和激活函数;所述结合层是由批归一化层和DROPOUT层结合构成的。
在一个实施例中,所述预设完成条件包括:
误差集中的所有误差值的平均值小于或等于预设误差阈值,和/或,
所述误差集中的所有所述误差值的标准差小于或等于预设标准差阈值;
其中,所述误差集包括对应于各所述测试集的误差值。
一种基于深度学习的保险客户分群装置,包括:
构建模块,用于基于Keras框架构建初始的深度神经网络模型;
获取模块,用于获取已营销客户的客户数据集;每个所述客户数据集包括类型标签和特征集;其中,具有同一所述类型标签的所述特征集属于同一个群;
划分模块,用于对所述客户数据集进行划分操作,得到多个训练测试组合;每一所述训练测试组合包括训练集和测试集;
训练模块,用于分别利用每个所述训练测试组合的所述训练集训练所述深度神经网络模型至收敛,并利用相对应的所述测试集测试所述深度神经网络模型的误差值,直至每次测试所得到的误差值均达到预设完成条件时,确定获得训练完成的深度神经网络模型;
分群模块,用于将待分群的保险客户的特征集输入所述训练完成的深度神经网络模型进行分群。
在其中一个实施例中,所述划分模块包括:
第一划分单元,用于将所述客户数据集划分为子数据集,其中,每个所述子数据集包括至少一个所述客户数据集;
第二划分单元,用于对所有所述子数据集进行预设次数次划分,每次划分得到对应的所述训练测试组合。
在其中一个实施例中,所述训练模块包括用于训练所述深度神经网络模型至收敛的子模块,所述子模块包括:
第一单元,用于将所述训练集中的一个特征集输入深度神经网络模型中,输出类型;
第二单元,用于根据输出的所述类型和真实类型确定损失值;
第三单元,用于判断所述损失值是否满足预设阈值要求;
第四单元,用于若不满足,则对所述深度神经网络模型的各层的网络参数进行调整,针对调整后的深度神经网络模型,转向所述将训练集中的一个特征集输入深度神经网络模型中,直至损失值缩小至阈值区间内为止;
第五单元,用于若满足,则停止对所述深度神经网络模型的各层的网络参数的调整。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述基于深度学习的保险客户分群方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被处理器执行时,使得处理器执行上述所述基于深度学习的保险客户分群方法的步骤。
上述基于深度学习的保险客户分群方法、装置、计算机设备和存储介质,采用了深度神经网络模型,通过已营销客户的客户数据集对深度神经网络模型进行训练及测试,利用训练完成的深度神经网络模型对待分群的保险客户进行分群,能够实现对保险客户的精确快速分群,为保险营销策略的制定提供参考和帮助,提升了营销效率,节约了人力成本,能够很好地满足保险营销行业实际应用的需要。
附图说明
图1为一个实施例中提供的基于深度学习的保险客户分群方法的流程图;
图2为一个实施例中深度神经网络模型的内部结构框图;
图3为图1所示实施例中的步骤S30的流程图;
图4为一个实施例中训练深度神经网络模型至收敛的流程图;
图5为一个实施例中基于深度学习的保险客户分群装置的结构框图;
图6为一个实施例中划分模块的结构框图;
图7为一个实施例中训练模块的结构框图;
图8为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。还应理解的是,虽然术语“第一”、“第二”等在文本中在一些本申请实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语仅用于区分各种元素。
如图1所示,在一个实施例中,提出了一种基于深度学习的保险客户分群方法,该基于深度学习的保险客户分群方法,具体可以包括以下步骤:
S10、基于Keras框架构建初始的深度神经网络模型。
基于Keras框架构建初始的深度神经网络模型,设置每层的神经元个数及激活函数,如图2所示,该深度神经网络模型包括输入层、第一全连接层、结合层、第二全连接层、第三全连接层和输出层,每个全连接层均具有全连接函数和激活函数。结合层是由批归一化层和DROPOUT层结合构成的。Keras是用Python编写的高级神经网络API(应用程序接口),它能够以TensorFlow,CNTK或者Theano作为后端运行。
在某些实施方式中,基于Keras框架构建初始的深度神经网络模型包括:
1.按照保险客户的特征维度设计输入层,输入层的神经元个数与特征维度相等。
2.输入层与具有256个神经元的第一全连接层相连接,并采用Relu函数作为激活函数。
3.第一全连接层后连接由批归一化层和Dropout层相结合所构成的结合层,使用批归一化层和Dropout层结合构成的结合层能够防止模型过拟合,dropout参数设置为0.3。
批归一化(Batch Normalization)是指对神经网络训练过程中的一批数据进行归一化的操作,它一般用于解决在训练过程中,网络中间层数据分布发生改变(InternalCovariate Shift)的情况。
Dropout是指在某个批次的训练中,通过忽略指定比例的神经元的方式,来减少过拟合现象出现的几率的方式,这种方式使得模型不会过度的依赖局部特征,使得模型的泛华能力更强。
批归一化层和Dropout层结合构成的结合层能够以一种连续的方式将每对神经元分开,通过结合层的应用可以使神经元更加独立。
批归一化层用于归一化网络激活函数,使网络激活函数的均值和单位方差为0。Dropout层通过在一个层中为神经元引入独立的随机门来构造独立的激活函数,允许神经元以概率p(即p为Dropout概率)输出其值,否则通过输出0来停用它们。直观上来说,一个神经元的输出传递的信息很少一部分来自其他神经元。因此,可以假设这些神经元在统计上是彼此独立的。结合层可以基于Dropout概率大幅减少任意两个神经元输出之间的相互信息以及相关系数。批归一化层和Dropout层结合构成的结合层,能够广泛应用于训练深度神经网络模型,能够降低任意一对神经元之间的交互信息和相关系数,能够在训练深度神经网络时实现更快的收敛速度。
4.连续连接第二全连接层和第三全连接层,分别具有128和64个神经元,均采用relu函数作为激活函数,以完成对数据特征的进一步抽象表示;
Relu函数在深度学习中的应用是为了加速深度神经网络模型的训练,同时解决梯度消失的问题,具体函数如下:
5.输出层包括决策层和softmax函数,使用一个具有32个神经元的决策层来决定每个客户所属的类别,softmax函数会输出客户对应32个类别的概率,模型取概率最高的类别作为该用户的类别。
设数据集V,数据集V中总共有K个元素,Vi是数据集V中第i个元素,则该元素Vi的Softmax值如下,
即该元素的Softmax值可简洁概括为该元素的指数与所有元素指数和的比值,值在0到1之间,所有元素的softmax值相加为1。
S20、获取已营销客户的客户数据集。
例如,从保险公司的资源池中获取多个(例如可以为100000个)已营销客户的客户数据集,每个已营销客户对应具有一个客户数据集。每个客户数据集包括类型标签和特征集。特征集的特征数据项具体可以包括:客户年龄、客户所属地区、是否转介绍、是否微信客户、是否关注微信公众号、是否一人多车、是否下载好车主软件、近一个月好车主活跃天数、近两个月好车主活跃天数、行驶证类型、车牌种类、车身颜色、车型、车型上市时间、车辆座位数、排气量、是否改装、是否新能源车、车辆价值、车系、历史出险次数、生产资源类型等多项。类型标签例如可以包括爽快早保型、多家询价型、礼品激励型和犹豫不决型四种类型。
表n个客户数据集
特征数据项 | 客户1 | 客户2 | …… | 客户n |
类型标签 | 爽快早保型 | 多家询价型 | …… | 犹豫不决型 |
客户年龄 | 31 | 26 | …… | 54 |
客户所属地区 | ××区 | ××区 | …… | ××区 |
是否转介绍 | 是 | 否 | …… | 否 |
是否微信客户 | 是 | 是 | …… | 否 |
是否关注微信公众号 | 是 | 否 | …… | 否 |
是否一人多车 | 否 | 是 | …… | 是 |
是否下载好车主软件 | 是 | 否 | …… | 否 |
近一个月好车主活跃天数 | 22 | 20 | …… | 6 |
近两个月好车主活跃天数 | 41 | 38 | …… | 16 |
行驶证类型 | 家庭自用汽车 | 家庭自用汽车 | …… | 家庭自用汽车 |
车牌种类 | 民用 | 民用 | …… | 民用 |
车身颜色 | 黑 | 黑 | …… | 白 |
车型 | 中等 | 小型 | …… | 小型 |
车型上市时间 | 2019.2.15 | 2015.11.22 | …… | 2010.5.1 |
车辆座位数 | 5 | 5 | …… | 5 |
排气量 | 1.8L | 1.5L | …… | 1.0L |
是否改装 | 否 | 否 | …… | 是 |
是否新能源车 | 是 | 是 | …… | 否 |
车辆价值 | 50万 | 20万 | …… | 12万 |
车系 | ××× | ×××× | …… | ×× |
历史出险次数 | 0 | 1 | …… | 0 |
生产资源类型 | ××× | ××× | …… | ××× |
在获取客户数据集时,可以预先设定数量最多的一种类型标签的客户数据集的数量不超过预设最大阈值,预先设定数量最少的一种类型标签的客户数据集的数量不小于预设最小阈值,避免数量最多的一种类型标签的客户数据集的数量与数量最少的一种类型标签的客户数据集的数量之差过大,避免后续对深度神经网络模型进行训练时某种类型标签的客户数据集的训练数量不足,从而避免训练完成后对某一类型标签的识别结果不准确。
具体地,以客户数据集为100000个为例,预设最大阈值可以设定为60000,预设最小阈值可以设定为20000。
S30、对客户数据集进行划分操作,得到多个训练测试组合。每一训练测试组合包括训练集和测试集。
对通过S20所获取的客户数据集进行划分操作,所获取的客户数据集包括多种类型标签的客户数据集,每种类型标签的客户数据集包括多个客户的客户数据集。
如图3所示,在某些实施方式中,步骤S30包括:
S301、将客户数据集划分为子数据集,其中,每个子数据集包括至少一个客户数据集。
以所获取的客户数据集为100000个为例,将该100000个客户数据集随机划分为100个子数据集,各子数据集所包含的客户数据集的数量可以不同。采用随机划分的方式,可以使子数据集完全按照数学概率来分配,避免了人为因素的影响,因而使技术方案更具有普适性。
S302、对所有子数据集进行预设次数次划分,每次划分得到对应的训练测试组合,训练测试组合包括训练集和测试集。其中,每次对所有子数据集的随机划分中,将至少一个子数据集划分为测试集,将剩余子数据集中的至少一个作为对应的训练集,互相对应的训练集和测试集构成训练测试组合。
例如,预设次数可以为10。对所有子数据集进行10次随机划分操作,每一次随机划分操作均得到对应的训练集和测试集,总共得到10个训练测试组合。为了便于理解,可以将上述10次随机划分操作所得到的训练测试组合分别称为第一组合、第二组合、……和第十组合,第一组合包括第一训练集和第一测试集,第二组合包括第二训练集和第二测试集,……,第十组合包括第十训练集和第十测试集。
在某些实施方式中,在每次对所有的子数据集进行多次划分操作之前,预先设定数量最多的子数据集的数量不超过预设最大阈值,预先设定数量最少的子数据集的数量不小于预设最小阈值,这样可以避免数量最多的子数据集的数量与数量最少的子数据集的数量之差值过大,从而避免由于二者差值过大所导致的某个训练测试组合的训练集与数据集的客户数据集数量分配比不合适导致训练过程收敛速度过慢。
具体地,以获取的客户数据集为100000个、将该100000个客户数据集随机划分为100个子数据集为例,预设最大阈值可以设定为10000,预设最小阈值可以设定为500。
在某些实施方式中,可以每次从所有子数据集中随机取出一部分作为测试集,从剩余的子数据集中再随机取出一部分子数据集作为训练集,这样测试集和训练集之间无重合,并且每次划分得到的测试集不完全相同,每次划分所得到的训练集也不完全相同,得到多个不同的训练测试组合。
将所获取的客户数据集随机划分为多个子数据集,再将所有子数据集多次随机划分为不同的训练测试组合(每个训练测试组合由测试集及对应的训练集构成),能够使所获取的客户数据集产生多种训练测试组合,每种训练测试组合中的测试集互不相同,训练集也相应地互不相同,从而提高了对所获取的客户数据集的利用率,利用多个训练测试组合对深度神经网络模型进行训练,提高了训练准确性。
S40、分别利用每个训练测试组合的训练集训练深度神经网络模型至收敛,并利用相对应的测试集测试深度神经网络模型的误差值,直至每次测试所得到的误差值均达到预设完成条件时,确定获得训练完成的深度神经网络模型。
每次对深度神经网络模型进行训练时,使用训练集中的数据训练深度神经网络模型至满足预设收敛条件,确定深度神经网络模型收敛,利用测试集中的数据测试深度神经网络模型,确定深度神经网络模型的误差值,其中,该误差值为深度神经网络模型的分类结果的出错率。
在利用训练集训练深度神经网络模型时,随着训练过程的进行,深度神经网络模型的分类结果值逐渐接近真实值。提前预设收敛条件,当分类结果满足收敛条件时,确定深度神经网络模型收敛。
深度神经网络模型的误差值可以用深度神经网络模型的分类结果的出错率进行表示,也就是测试集中的数据经过深度神经网络模型分类,分类结果值与真实值相同的为正确结果,分类结果值与真实值不同的为错误结果,分别统计正确结果和错误结果,然后计算错误结果的数量占总结果数量的比例,并将该比例作为误差值;其中总结果数量即正确结果和错误结果的数量之和。
当误差集达到预设完成条件时,停止训练深度神经网络模型,其中,误差集包括对应于各测试集的误差值。
在某些实施方式中,上述的预设完成条件为误差集中的所有误差值的平均值小于或等于预设误差阈值(例如可以为8%,具体可以根据实际应用需要进行设定),且误差集中的所有误差值的标准差小于或等于预设标准差阈值(例如预设标准差阈值可以为5%,具体可以根据实际应用需要进行设定)。
满足上述的预设完成条件时,确定深度神经网络模型训练完成。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。所有误差值的平均值和标准差分别用于表征深度神经网络的准确率和稳定性。满足上述的预设完成条件后,训练完成的深度神经网络模型在准确率和稳定性方面均达到了较好的性能,准确率高,稳定性好。
标准差σ的计算公式为
其中n代表所有误差值的总个数,xi代表误差值,i=1,2,3……n;代表所有误差值的平均值。
例如,利用第一组合、第二组合、……和第十组合的测试集分别测试深度神经网络模型获得十个误差值x1、x2、x3、x4、x5、x6、x7、x8、x9和x10,x1、x2、x3、x4、x5、x6、x7、x8、x9和x10依次为5.3%、11.1%、7.8%、3.2%、6.4%、9.1%、14.3%、4.1%、8.9%和3.8%。
则计算该十个误差值的平均值
(5.3%+11.1%+7.8%+3.2%+6.4%+9.1%+14.3%+4.1%+8.9%++3.8%)/10=7.4%,若预设误差阈值设定为8%,则平均值
计算标准差σ的值为3.369%,若预设标准差阈值为5%,则标准差3.369%小于5%。
该十个误差值达到预设完成条件。
在某些实施方式中,预设完成条件可以为误差集中的所有误差值的平均值小于或等于预设误差阈值或误差集中的所有误差值的标准差小于或等于预设标准差阈值。
在某些实施方式中,上述的预设完成条件为误差集中达标误差值的数量占比达到预设比例阈值(例如80%),且误差集中的所有误差值的平均值小于或等于预设误差阈值,达标误差值即小于或等于预设误差阈值(例如8%)的误差值。
例如,十个误差值x1、x2、x3、x4、x5、x6、x7、x8、x9和x10依次为5.3%、7.1%、7.8%、3.2%、6.4%、9.1%、14.3%、4.1%、7.9%和3.8%,其中的达标误差值为5.3%、7.1%、7.8%、3.2%、6.4%、4.1%、7.9%和3.8%,共8个,数量占比为80%,达到预设比例阈值8%,该十个误差值的平均值(5.3%+7.1%+7.8%+3.2%+6.4%+9.1%+14.3%+4.1%+7.9%+3.8%)/10=6.9%也小于预设误差阈值8%,因此此时达到预设完成条件。
如图4所示,在某些实施方式中,训练深度神经网络模型至收敛,包括:
S401,将训练集中的一个特征集输入深度神经网络模型中,输出类型。
训练集中的每个特征集所对应的类型标签是已知的。
S402,根据输出的类型和真实类型确定损失值。
其中,输出的类别为神经网络的预测值,真实类别为真实值,计算预测值和真实值之差的绝对值即得到各类型的损失值。
具体的,深度神经网络模型的输出的是各个类型的概率,例如爽快早保型的概率占比89%,多家询价型的概率占比为3%,礼品激励型的概率占比为5%,犹豫不决型的概率占比为3%,而真实值为爽快早保型的概率占比为85%,多家询价型的概率占比为6%,礼品激励型的占比概率为4%,犹豫不决型的占比概率为5%,通过上述各个类型的预测概率和真实概率计算出损失值,损失值分别为:爽快早保型的损失值为|85%-89%|=4%,多家询价型的损失值|6%-3%|=3%,礼品激励型的损失值|4%-5%|=1%,犹豫不决型的损失值|5%-3%|=2%。
S403,判断得到的损失值是否满足预设阈值要求。
例如,若预设阈值要求为各类型的损失值均小于或等于5%,则上述损失值满足预设阈值要求。
又例如,若预设阈值要求为各类型的损失值均小于或等于3%,则由于爽快早保型的损失值为|85%-89%|=4%不满足预设阈值要求,则判定上述损失值不满足预设阈值要求。
S404,若不满足,则对深度神经网络模型的各层的网络参数进行调整,针对调整后的深度神经网络模型,转向步骤S401,直至损失值缩小至阈值区间内为止。
S405、若满足,则停止对深度神经网络模型的各层的网络参数的调整。
损失值能够反馈出深度神经网络模型的网络参数的偏差,通过网络参数进行调整能够逐步缩小损失值,缩小各类型的输出概率与真实概率之间的差值绝对值,直至各类型的损失值均达到预设阈值要求为止。
S50、将待分群的保险客户的特征集输入训练好的深度神经网络模型进行分群;其中,具有同一类型标签的特征集属于同一个群。
深度神经网络模型将依次预测每个待分类客户的特征集进行分群,每一个群对应一个类型标签。最终将预测分类的结果存入本地数据库,供后续营销流程使用,具体涉及到的客户分类种类包括但不局限于:爽快早保型、多家询价型、礼品激励型、犹豫不决型等。
本申请的基于深度学习的保险客户分群方法,采用了深度神经网络模型,通过已营销客户的客户数据集对深度神经网络模型进行训练及测试,利用训练完成的深度神经网络模型对待分群的保险客户进行分群,能够实现对保险客户的精确快速分群,分类精度高、分群效率高,分群准确度高,能够为保险营销策略的制定提供参考和帮助,提升了营销效率,节约了人力成本,能够很好地满足保险营销行业实际应用的需要。
本申请的基于深度学习的保险客户分群方法,采用了深度神经网络模型,对庞大保险客户群体进行深度挖掘,对大量用户特征进行抽象降维,最终进行智能客户分群,为保险营销提供指导。采用深度学习算法为保险营销赋能,对庞大的客户群体进行特征挖掘并智能分群,以此提升保险营销效率;使用深度学习技术为保险营销赋能,智能挖掘海量用户特征,能够充分挖掘客户特征中的非线性关联,对保险客户进行科学分群,在后续保险业务员营销时为其提供指导,让业务员在尚未解除客户时,就已经知道客户所属类别,从而灵活转变营销策略,最终提升了营销效率,节约了人力成本。本申请的方法克服了现有技术的算法容易受到离群客户点的影响导致模型分类精度不佳,以及无法充分挖掘客户特征中的非线性关联的缺陷。
如图5所示,在一个实施例中,提出了一种基于深度学习的保险客户分群装置,包括:
构建模块10,用于基于Keras框架构建初始的深度神经网络模型。
获取模块20,用于获取已营销客户的客户数据集。
划分模块30,用于对所获取的客户数据集进行划分操作,得到多个训练测试组合,每一训练测试组合包括训练集和测试集。
如图6所示,在某些实施方式中,划分模块30包括:
第一划分单元301,用于将所获取的客户数据集划分为子数据集,其中,每个子数据集包括至少一个客户数据集。
第二划分单元302,用于对所有子数据集进行预设次数次划分,每次划分得到对应的训练测试组合,训练测试组合包括训练集和测试集。其中,每次对所有子数据集的划分中,将至少一个子数据集划分为测试集,将剩余子数据集中的至少一个作为对应的训练集,互相对应的训练集和测试集构成训练测试组合。
该保险客户分群装置还包括训练模块40,用于分别利用每个训练测试组合的训练集训练深度神经网络模型至收敛,并利用相对应的测试集测试深度神经网络模型的误差值,直至每次测试所得到的误差值均达到预设完成条件时,确定获得训练完成的深度神经网络模型。
如图7所示,在某些实施方式中,训练模块40包括:
第一单元401,用于将训练集中的一个特征集输入深度神经网络模型中,输出类型。
第二单元402,用于根据输出的类型和真实类型确定损失值。
第三单元403,用于判断得到的损失值是否位于预设阈值区间内。
第四单元404,用于若没有位于预设阈值区间内,则对深度神经网络模型的各层的网络参数进行调整,针对调整后的深度神经网络模型,转向第一单元,直至损失值缩小至阈值区间内为止。
第五单元405,用于若位于预设阈值区间内,则停止对深度神经网络模型的各层的网络参数的调整。
该保险客户分群装置还包括分群模块50,分群模块50用于将待分群的保险客户的特征集输入训练好的深度神经网络模型进行分群;其中,具有同一类型标签的特征集属于同一个群。
如图8所示,在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
构建深度神经网络模型;
获取已营销客户的客户数据集;每个所述客户数据集包括类型标签和特征集;
对所述客户数据集进行划分操作,得到多个训练测试组合;每一所述训练测试组合包括训练集和测试集;
分别利用每个所述训练测试组合的所述训练集训练所述深度神经网络模型至收敛,并利用相对应的所述测试集测试所述深度神经网络模型的误差值,直至每次测试所得到的误差值均达到预设完成条件时,确定获得训练完成的深度神经网络模型;
将待分群的保险客户的特征集输入所述训练完成的深度神经网络模型进行分群;其中,具有同一所述类型标签的所述特征集属于同一个群。
在一个实施例中,所述处理器所执行的对所述客户数据集进行划分操作,得到多个训练测试组合的步骤包括:
将所述客户数据集划分为子数据集,其中,每个所述子数据集包括至少一个所述客户数据集;
对所有所述子数据集进行预设次数次划分,每次划分得到对应的所述训练测试组合。
在一个实施例中,所述处理器所执行的训练所述深度神经网络模型至收敛,包括:
将所述训练集中的一个特征集输入深度神经网络模型中,输出类型;
根据输出的所述类型和真实类型确定损失值;
判断所述损失值是否满足预设阈值要求;
若不满足,则对所述深度神经网络模型的各层的网络参数进行调整,针对调整后的深度神经网络模型,转向所述将训练集中的一个特征集输入深度神经网络模型中,直至损失值缩小至阈值区间内为止;
若满足,则停止对所述深度神经网络模型的各层的网络参数的调整。
所述深度神经网络模型包括输入层、第一全连接层、结合层、第二全连接层、第三全连接层和输出层,所述第一全连接层、所述第二全连接层和所述第三全连接层均具有全连接函数和激活函数;所述结合层是由批归一化层和DROPOUT层结合构成的。
所述预设完成条件包括:
误差集中的所有误差值的平均值小于或等于预设误差阈值,和/或,
所述误差集中的所有所述误差值的标准差小于或等于预设标准差阈值;其中,所述误差集包括对应于各所述测试集的误差值。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
构建深度神经网络模型;
获取已营销客户的客户数据集;每个所述客户数据集包括类型标签和特征集;
对所述客户数据集进行划分操作,得到多个训练测试组合;每一所述训练测试组合包括训练集和测试集;
分别利用每个所述训练测试组合的所述训练集训练所述深度神经网络模型至收敛,并利用相对应的所述测试集测试所述深度神经网络模型的误差值,直至每次测试所得到的误差值均达到预设完成条件时,确定获得训练完成的深度神经网络模型;
将待分群的保险客户的特征集输入所述训练完成的深度神经网络模型进行分群;其中,具有同一所述类型标签的所述特征集属于同一个群。
在一个实施例中,所述处理器所执行的对所述客户数据集进行划分操作,得到多个训练测试组合,包括:
将所述客户数据集划分为子数据集,其中,每个所述子数据集包括至少一个所述客户数据集;
对所有所述子数据集进行预设次数次划分,每次划分得到对应的所述训练测试组合。
在一个实施例中,所述处理器所执行的训练所述深度神经网络模型至收敛,包括:
将所述训练集中的一个特征集输入深度神经网络模型中,输出类型;
根据输出的所述类型和真实类型确定损失值;
判断所述损失值是否满足预设阈值要求;
若不满足,则对所述深度神经网络模型的各层的网络参数进行调整,针对调整后的深度神经网络模型,转向所述将训练集中的一个特征集输入深度神经网络模型中,直至损失值缩小至阈值区间内为止;
若满足,则停止对所述深度神经网络模型的各层的网络参数的调整。
深度神经网络模型包括输入层、第一全连接层、结合层、第二全连接层、第三全连接层和输出层,所述第一全连接层、所述第二全连接层和所述第三全连接层均具有全连接函数和激活函数;所述结合层是由批归一化层和DROPOUT层结合构成的。
所述预设完成条件包括:
误差集中的所有误差值的平均值小于或等于预设误差阈值,和/或,
所述误差集中的所有所述误差值的标准差小于或等于预设标准差阈值;其中,所述误差集包括对应于各所述测试集的误差值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种基于深度学习的保险客户分群方法,其特征在于,包括:
基于Keras框架构建初始的深度神经网络模型;
获取已营销客户的客户数据集;每个所述客户数据集包括类型标签和特征集;其中,具有同一所述类型标签的所述特征集属于同一个群;
对所述客户数据集进行划分操作,得到多个训练测试组合;每一所述训练测试组合包括训练集和测试集;
分别利用每个所述训练测试组合的所述训练集训练所述深度神经网络模型至收敛,并利用相对应的所述测试集测试所述深度神经网络模型的误差值,直至每次测试所得到的误差值均达到预设完成条件时,确定获得训练完成的深度神经网络模型;
将待分群的保险客户的特征集输入所述训练完成的深度神经网络模型进行分群;
所述对所述客户数据集进行划分操作,得到多个训练测试组合,包括:
将所述客户数据集随机划分为多个子数据集,其中,每个所述子数据集包括至少一个所述客户数据集;
对所有所述子数据集进行预设次数次划分,每次划分得到对应的所述训练测试组合;
所述训练所述深度神经网络模型至收敛,包括:
将所述训练集中的一个特征集输入深度神经网络模型中,输出类型;
根据输出的所述类型和真实类型确定损失值;
判断所述损失值是否满足预设阈值要求;
若不满足,则对所述深度神经网络模型的各层的网络参数进行调整,针对调整后的深度神经网络模型,转向所述将训练集中的一个特征集输入深度神经网络模型中,直至损失值缩小至阈值区间内为止;
若满足,则停止对所述深度神经网络模型的各层的网络参数的调整;
所述深度神经网络模型包括输入层、第一全连接层、结合层、第二全连接层、第三全连接层和输出层,所述第一全连接层、所述第二全连接层和所述第三全连接层均具有全连接函数和激活函数;所述结合层是由批归一化层和DROPOUT层结合构成的。
2.如权利要求1所述的基于深度学习的保险客户分群方法,其特征在于,所述预设完成条件包括:
误差集中的所有误差值的平均值小于或等于预设误差阈值,和/或,
所述误差集中的所有所述误差值的标准差小于或等于预设标准差阈值;其中,所述误差集包括对应于各所述测试集的误差值。
3.一种基于深度学习的保险客户分群装置,其特征在于,包括:
构建模块,用于基于Keras框架构建初始的深度神经网络模型;
获取模块,用于获取已营销客户的客户数据集;每个所述客户数据集包括类型标签和特征集;其中,具有同一所述类型标签的所述特征集属于同一个群;
划分模块,用于对所述客户数据集进行划分操作,得到多个训练测试组合;每一所述训练测试组合包括训练集和测试集;
训练模块,用于分别利用每个所述训练测试组合的所述训练集训练所述深度神经网络模型至收敛,并利用相对应的所述测试集测试所述深度神经网络模型的误差值,直至每次测试所得到的误差值均达到预设完成条件时,确定获得训练完成的深度神经网络模型;
分群模块,用于将待分群的保险客户的特征集输入所述训练完成的深度神经网络模型进行分群;
所述划分模块包括:
第一划分单元,用于将所述客户数据集随机划分为多个子数据集,其中,每个所述子数据集包括至少一个所述客户数据集;
第二划分单元,用于对所有所述子数据集进行预设次数次划分,每次划分得到对应的所述训练测试组合;
所述训练模块包括用于训练所述深度神经网络模型至收敛的子模块,所述子模块包括:
第一单元,用于将所述训练集中的一个特征集输入深度神经网络模型中,输出类型;
第二单元,用于根据输出的所述类型和真实类型确定损失值;
第三单元,用于判断所述损失值是否满足预设阈值要求;
第四单元,用于若不满足,则对所述深度神经网络模型的各层的网络参数进行调整,针对调整后的深度神经网络模型,转向所述将训练集中的一个特征集输入深度神经网络模型中,直至损失值缩小至阈值区间内为止;
第五单元,用于若满足,则停止对所述深度神经网络模型的各层的网络参数的调整;
所述深度神经网络模型包括输入层、第一全连接层、结合层、第二全连接层、第三全连接层和输出层,所述第一全连接层、所述第二全连接层和所述第三全连接层均具有全连接函数和激活函数;所述结合层是由批归一化层和DROPOUT层结合构成的。
4.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至2中任一项权利要求所述基于深度学习的保险客户分群方法的步骤。
5.一种存储有计算机可读指令的存储介质,所述计算机可读指令被处理器执行时,使得处理器执行如权利要求1至2中任一项权利要求所述基于深度学习的保险客户分群方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110723317.8A CN113435513B (zh) | 2021-06-28 | 2021-06-28 | 基于深度学习的保险客户分群方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110723317.8A CN113435513B (zh) | 2021-06-28 | 2021-06-28 | 基于深度学习的保险客户分群方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113435513A CN113435513A (zh) | 2021-09-24 |
CN113435513B true CN113435513B (zh) | 2024-06-04 |
Family
ID=77757458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110723317.8A Active CN113435513B (zh) | 2021-06-28 | 2021-06-28 | 基于深度学习的保险客户分群方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435513B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909933A (zh) * | 2017-01-18 | 2017-06-30 | 南京邮电大学 | 一种三阶段多视角特征融合的窃电分类预测方法 |
CN108256907A (zh) * | 2018-01-09 | 2018-07-06 | 北京腾云天下科技有限公司 | 一种客户分群模型的构建方法和计算设备 |
CN109636443A (zh) * | 2018-11-17 | 2019-04-16 | 南京中数媒介研究有限公司 | 客户流失预测的深度学习方法及装置 |
CN109710763A (zh) * | 2018-12-27 | 2019-05-03 | 郑州云海信息技术有限公司 | 一种文本数据的分类方法、装置以及系统 |
CN110378383A (zh) * | 2019-06-19 | 2019-10-25 | 江苏大学 | 一种基于Keras框架和深度神经网络的图片分类方法 |
CN110580268A (zh) * | 2019-08-05 | 2019-12-17 | 西北大学 | 一种基于深度学习的信用评分集成分类系统和方法 |
CN110930198A (zh) * | 2019-12-05 | 2020-03-27 | 佰聆数据股份有限公司 | 基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备 |
CN111325152A (zh) * | 2020-02-19 | 2020-06-23 | 北京工业大学 | 一种基于深度学习的交通标志识别方法 |
CN111899055A (zh) * | 2020-07-29 | 2020-11-06 | 亿达信息技术有限公司 | 大数据金融场景下的基于机器学习和深度学习的保险客户复购预测方法 |
CN112037012A (zh) * | 2020-08-14 | 2020-12-04 | 百维金科(上海)信息科技有限公司 | 一种基于pso-bp神经网络的互联网金融信用评价方法 |
-
2021
- 2021-06-28 CN CN202110723317.8A patent/CN113435513B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909933A (zh) * | 2017-01-18 | 2017-06-30 | 南京邮电大学 | 一种三阶段多视角特征融合的窃电分类预测方法 |
CN108256907A (zh) * | 2018-01-09 | 2018-07-06 | 北京腾云天下科技有限公司 | 一种客户分群模型的构建方法和计算设备 |
CN109636443A (zh) * | 2018-11-17 | 2019-04-16 | 南京中数媒介研究有限公司 | 客户流失预测的深度学习方法及装置 |
CN109710763A (zh) * | 2018-12-27 | 2019-05-03 | 郑州云海信息技术有限公司 | 一种文本数据的分类方法、装置以及系统 |
CN110378383A (zh) * | 2019-06-19 | 2019-10-25 | 江苏大学 | 一种基于Keras框架和深度神经网络的图片分类方法 |
CN110580268A (zh) * | 2019-08-05 | 2019-12-17 | 西北大学 | 一种基于深度学习的信用评分集成分类系统和方法 |
CN110930198A (zh) * | 2019-12-05 | 2020-03-27 | 佰聆数据股份有限公司 | 基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备 |
CN111325152A (zh) * | 2020-02-19 | 2020-06-23 | 北京工业大学 | 一种基于深度学习的交通标志识别方法 |
CN111899055A (zh) * | 2020-07-29 | 2020-11-06 | 亿达信息技术有限公司 | 大数据金融场景下的基于机器学习和深度学习的保险客户复购预测方法 |
CN112037012A (zh) * | 2020-08-14 | 2020-12-04 | 百维金科(上海)信息科技有限公司 | 一种基于pso-bp神经网络的互联网金融信用评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113435513A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 | |
US12007980B2 (en) | AI-driven transaction management system | |
CA3102439A1 (en) | Systems and methods for decomposition of non-differentiable and differentiable models | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
US20210158227A1 (en) | Systems and methods for generating model output explanation information | |
US20210158085A1 (en) | Systems and methods for automatic model generation | |
CN113657993B (zh) | 信用风险识别方法、装置、设备及存储介质 | |
CN102859528A (zh) | 使用生物网络识别药物靶点的系统和方法 | |
McDonnell et al. | Deep learning in insurance: Accuracy and model interpretability using TabNet | |
CN112116225A (zh) | 装备系统的作战效能评估方法、装置和存储介质 | |
CN112487284A (zh) | 银行客户画像生成方法、设备、存储介质及装置 | |
Rentzmann et al. | Unsupervised learning: What is a sports car? | |
CN114091579A (zh) | 城市轨道交通客流预警系统和方法 | |
CN113435513B (zh) | 基于深度学习的保险客户分群方法、装置、设备和介质 | |
Panfilo | Generating Privacy-Compliant, Utility-Preserving Synthetic Tabular and Relational Datasets Through Deep Learning | |
Liu et al. | Active learning with fairness-aware clustering for fair classification considering multiple sensitive attributes | |
CN116484244A (zh) | 基于聚类模型的自动驾驶事故发生机制分析方法 | |
CN112232945B (zh) | 一种确定个人客户授信的方法及装置 | |
CN115293867A (zh) | 财务报销用户画像优化方法、装置、设备及存储介质 | |
CN113239034A (zh) | 一种基于人工智能的大数据资源整合方法、系统及云平台 | |
Manokhin | Machine learning for probabilistic prediction | |
Gardner et al. | Driving with Data in the Motor City: Understanding and Predicting Fleet Maintenance Patterns | |
Chen et al. | Used Car Prices in India: What about Future? | |
US11948207B1 (en) | Machine learning based approach for recommending different categories of tax deductible expenses and related examples of tax deductible expenses for each category | |
US20230385951A1 (en) | Systems and methods for training models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |