CN114861989A - 一种加保业务的预测方法及装置 - Google Patents

一种加保业务的预测方法及装置 Download PDF

Info

Publication number
CN114861989A
CN114861989A CN202210396949.2A CN202210396949A CN114861989A CN 114861989 A CN114861989 A CN 114861989A CN 202210396949 A CN202210396949 A CN 202210396949A CN 114861989 A CN114861989 A CN 114861989A
Authority
CN
China
Prior art keywords
model
insurance
insight
added
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210396949.2A
Other languages
English (en)
Inventor
李丹丹
柳青杨
何思源
慕学玲
刘珊珊
韦云健
杜新凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202210396949.2A priority Critical patent/CN114861989A/zh
Publication of CN114861989A publication Critical patent/CN114861989A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请提供了一种加保业务的预测方法及装置,应用于数据分析技术领域,该方法包括根据目标标注工具对投保数据进行目标标注,得到加保洞察样本集;根据加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型;根据混淆矩阵与模型评价方式,利用加保洞察样本集的测试集对候选加保洞察模型进行模型评价,得到模型评价结果;根据模型评价结果,确定符合检测精度的加保洞察模型;根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果。本申请通过机器学习中数据建模实现投保大数据的预测分析,利用描述性统计对模型评估数据进行解读,得到精确预测结果,从而洞察出客户未来加保的走向,提升业务人员的工作效率。

Description

一种加保业务的预测方法及装置
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种加保业务的预测方法及装置。
背景技术
当前越来越多的公司开始重视对客户的经营,通过技术手段对客户的全生命周期的数据进行洞察分析,期望挖掘出有价值的特征,用于支持后续业务拓展,对于保险公司的客户洞察,主要集中在获客、促成、核保、加保、理赔等关键的业务场景,其中加保是指促进历史客户再次投保,属于业务员重点关注的客户洞察场景,通过对历史客户信息进行全方位的分析,可以帮助业务员掌握加保客户重要的特征,例如地区、性别、年龄、投保对象、投保时机等,用于对客户提供相应的经营活动,提升加保成功率。
目前对于客户的加保洞察依赖于专业的数据科学家与业务人员配合完成,首先将加保洞察问题转化为数据建模分析问题,再利用各种先进的模型算法从大量数据中挖掘出有价值的信息,即使是高级的专家在进行建模分析的时候,也需要经过数据处理、特征提取、模型选择、参数调优、模型评估等一系列复杂的操作流程,其中还需要借助经验进行反复迭代调整,整个过程耗时耗力,虽然现阶段陆续推出了各种工具平台来支持建模分析工作,但是依然存在较高的门槛,需要技术人员来使用,得到的模型输出结果也需要依靠专家来进行加工整理,才能应用于业务场景中。
发明内容
有鉴于此,本申请实施例提供了一种加保业务的预测方法,能够通过机器学习中数据建模实现投保大数据的预测分析,从而精确的洞察出客户未来加保的走向,提升业务人员的工作效率。
第一方面,本申请实施例提供了一种加保业务的预测方法,包括:
根据目标标注工具对投保数据进行目标标注,得到加保洞察样本集;
根据加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型;
根据混淆矩阵与模型评价方式,利用加保洞察样本集的测试集对候选加保洞察模型进行模型评价,得到模型评价结果;
根据模型评价结果,确定符合检测精度的加保洞察模型;
根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,得到加保洞察样本集之前,还包括:
根据投保客户特征参数和投保时间点特征参数,确定加保目标;
获取加保目标的投保数据,投保数据包含:客户性别、年龄、婚姻状况、职业、收入、历史保费、历史投保类型、投保次数、投保额度、投保产品的次序及产品关注数据;
在投保数据中标注目标数据,得到加保洞察样本集的训练集及测试集。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,根据加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型之前,还包括:
对训练集的二进制代码进行格式转换,转换后得到训练集的数据样本;
采用特征筛选策略对转换后的每个数据样本进行特征筛选,得到目标特征;
将目标特征的特征向量输入到加保逻辑模型中,并采用多种算法对加保逻辑模型进行循环训练,得到候选加保逻辑模型,其中,多种算法包含:逻辑回归算法、贪心算法、决策树C4.5算法、分类回归树算法、XGBoost树类算法、LightGBM优化算法和神经网络算法;
根据模型评价方式,利用加保洞察样本集的测试集对候选加保逻辑模型进行模型评价,得到模型评价结果;
根据评价结果,确定符合要求的选定加保逻辑模型;
采用贝叶斯优化算法对选定加保逻辑模型的超参数进行调优,得到最优参数的加保洞察模型。
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,根据模型评价结果,确定符合检测精度的加保洞察模型,包括:
若候选加保洞察模型的检测精度达到阈值时,则确定为加保洞察模型;
若候选加保洞察模型的检测精度未达到阈值时,则对候选加保洞察模型重新训练。
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,包括:
根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,其中,客户加保的预测结果分别为:客户加保模型评估结果、客户加保评级、加保结果的影响值及客户分类加保概率值。
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,具体包括:
如果加保洞察模型的评价指标超过第一预设阈值,则客户加保模型评估结果为优秀;
如果加保洞察模型的评价指标等于第二预设阈值,则客户加保模型评估结果为良好;
如果加保洞察模型的评价指标等于第三预设阈值,则客户加保模型评估结果为可选用;
如果加保洞察模型的评价指标小于第四预设阈值,则客户加保模型评估结果不可用。
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,其中,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,具体包括:
将客户数量的比例划分为多个等级;
按照每个等级对所有投保客户进行等级评价,得到每个客户的加保评级概率,客户数量的多个等级分别为10%、20%、30%和40%。
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第七种可能的实施方式,其中,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,具体包括:
根据加保洞察模型的目标特征,计算投保客户的预测值;
根据投保客户的预测值,计算每个目标特征对预测值的贡献值,贡献值作为目标特征对加保结果的影响值。
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第八种可能的实施方式,其中,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,具体包括:
按照不同类型的目标特征,计算每个类型的客户分类加保概率值;
基于连续型目标特征,按照指定分类进行划分,并分别计算每个类型的客户分类加保概率值,连续型变量包含:年龄、收入。
第二方面,本申请实施例还提供了一种加保业务的预测装置,装置包括:
确定样本模块,用于根据目标标注工具对投保数据进行目标标注,得到加保洞察样本集;
模型训练模块,用于根据加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型;
模型评价模块,用于根据混淆矩阵与模型评价方式,利用加保洞察样本集的测试集对候选加保洞察模型进行模型评价,得到模型评价结果;
确定模型模块,用于根据模型评价结果,确定符合检测精度的加保洞察模型;
预测分析模型,用于根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果。
本申请实施例提供的一种加保业务的预测方法,与现有技术依赖保险行业的数据专家对投保客户进行加保分析相比;本方法根据目标标注工具对投保数据进行目标标注,得到加保洞察样本集;根据加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型;根据混淆矩阵与模型评价方式,利用加保洞察样本集的测试集对候选加保洞察模型进行模型评价,得到模型评价结果;根据模型评价结果,确定符合检测精度的加保洞察模型;根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果。具体来说,通过历史投保数据进行目标标注得到加保洞察样本集,对加保洞察模型进行模型训练和模型评价,根据评价结果,得到加保洞察模型,能够通过机器学习方法进行数据建模实现投保大数据的预测分析,利用描述性统计将模型评估数据进行解读,可以分析训练样本集中每个目标特征对应特征对加保洞察模型的影响,从而精确的洞察出客户未来加保的走向,提升业务人员的工作效率;同时可以从保险产品和客户特征两个方面多类型对客户进行分析,最终得到一个精确预测结果。
进一步,本申请实施例提供的加保业务的预测方法,其从属权利要求的有益效果:基于机器学习技术对历史投保数据进行预处理、特征筛选、选取模型、参数调优及模型评价,将复杂的建模分析过程流程化、智能化,使得业务人员一键化快速实现全流程建模,并可以应用于多种保险业务场景中,对历史客户信息进行全方位的分析。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种加保业务的预测方法流程图。
图2示出了本申请实施例所提供的一种加保业务的预测方法中获取加保洞察样本集的流程示意图。
图3示出了本申请实施例所提供的一种加保业务的预测方法中对加保逻辑模型进行模型训练的流程示意图。
图4示出了本申请实施例所提供的一种加保业务的预测方法中计算客户加保模型评估结果的流程示意图。
图5示出了本申请实施例所提供的一种加保业务的预测方法中预测客户加保评级的流程示意图。
图6示出了本申请实施例所提供的一种加保业务的预测方法中预测加保结果的影响值的流程示意图。
图7示出了本申请实施例所提供的一种加保业务的预测方法中预测客户分类加保概率值的流程示意图。
图8示出了本申请实施例所提供的一种加保业务的预测装置结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到;目前依赖行业的数据专家以经验对投保客户进行大数据分析;基于此,本申请实施例提供了一种加保业务的预测方法,下面通过实施例进行描述。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图1示出了本申请实施例所提供的一种加保业务的预测方法流程示意图;如图1所示,具体包括以下步骤:
步骤S100,根据目标标注工具对投保数据进行目标标注,得到加保洞察样本集。
步骤S100在具体实施时,对投保数据进行目标标注之前还包括,通过数据对接方式获取根据历史经验总结出所需要的投保数据,其中,数据对接方式包含:数据库共享数据方式、接口传输数据方式、本地数据上传方式及C/S交互方式等;上述投保数据包含:客户性别、年龄、婚姻状况、职业、收入、历史保费、历史投保保险类型、投保次数、投保额度、投保产品的次序及产品关注数据,根据目标标注工具对投保数据进行目标标注,得到加保洞察样本集,加保洞察样本集分为训练集和测试集,上述加保是在原有保单保障的基础上增加保障,加保的方式一般分为两种,一种是以当前的年龄、职业、身体状况等条件另外投保新的保单,另一种是通过保单升级的方式进行加保。
步骤S200,根据加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型。
步骤S200在具体实施时,上述加保洞察模型可以是决策树模型,也可以是神经网络模型,在对加保洞察模型进行模型训练进行模型训练之前还需要,对获取到的加保洞察样本集中的数据样本进行数据预处理,采用特征筛选策略对数据样本进行随机排序,依次计算数据样本中每个特征的得分,若得分超过集合阈值,则得到目标特征,上述集合阈值为基准值除以训练集中四分之三分位数的值;将目标特征输入到加保逻辑模型中进行循环训练,得到候选加保逻辑模型,根据模型评价方式,利用测试集对候选加保逻辑模型进行模型评估,按照模型评价结果,得到选定加保逻辑模型,再对选定加保逻辑模型的超参数进行调优,在有限循环训练后,得到最优参数的加保洞察模型;从加保洞察样本集中选取三分之二的数据样本作为训练集,将选取的训练集输入到加保洞察模型中进行模型训练,直到模型达到迭代次数,得到候选加保洞察模型。
步骤S300,根据混淆矩阵与模型评价方式,利用加保洞察样本集的测试集对候选加保洞察模型进行模型评价,得到模型评价结果。
步骤S300在具体实施时,从加保洞察样本集中选取三分之一的数据样本作为测试集,利用测试集的数据样本对候选加保洞察模型进行模型评估时,通过多种数据分析算法,分析数据样本对候选加保洞察模型输出的预测结果有什么影响,得到候选加保洞察模型对测试样本集的预测结果,根据预测结果计算候选加保洞察模型的模型评价数据,然后,基于数据样本对模型评价数据进行统计特征分析,得到模型评价结果;上述数据样本还包含采集时间及采集测试样本集的位置信息中的至少一种信息;其中,根据混淆矩阵衡量模型精准度,矩阵中每一行表示测试样本集的预测结果,每一列表示测试样本集的真实信息,矩阵中的单元格数据表示不同类型的样本数量,例如:以历史投保类型数据样本为例,混合矩阵中的第三行第一列的单元格数据为10,该单元格所在的行表示预测结果为重大疾病保险,所在的列表示真实信息为理财保险,那么候选加保洞察模型将重大疾病保险样本预测为理财保险样本的数量为10;然后,将测试样本集的预测结果与测试样本集的真实信息进行对比,根据数据样本的类型,对计算候选加保洞察模型的模型评价数据,基于模型评价数据进行统计特征分析,得到模型评价结果。
步骤S400,根据模型评价结果,确定符合检测精度的加保洞察模型;
步骤S400在具体实施时,获取到候选加保洞察模型的评价结果后,判断候选加保洞察模型的评价结果是否大于预设阈值,如果大于阈值,则从大于预设阈值的侯选加保洞察模型中,选取加保洞察模型。
步骤S500,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果。
步骤S500在具体实施时,根据加保洞察模型对每个投保客户的客户性别、年龄、婚姻状况、职业、收入、历史保费、历史投保类型、投保次数、投保额度、投保产品的次序及产品关注数据进行预测分析,分别得到客户加保模型评估结果、客户加保评级、加保结果的影响值及客户分类加保概率值。
在一个可行的实现方案中,图2示出了本申请实施例所提供的一种加保业务的预测方法中获取加保洞察样本集的流程示意图;在执行上述步骤S100之前,还包括:
步骤S10,根据投保客户特征参数和投保时间点特征参数,确定加保目标。
步骤S20,获取加保目标的投保数据,投保数据包含:客户性别、年龄、婚姻状况、职业、收入、历史保费、历史投保类型、投保次数、投保额度、投保产品的次序及产品关注数据。
步骤S30,在投保数据中标注目标数据,得到加保洞察样本集的训练集及测试集。
步骤S10、S20、S30在具体实施时,在计算机设备中设置客户加保目标,其中,加保目标分为产品加保项和客户加保项,产品加保项用于洞察某种保险产品的投保客户特征参数;客户加保项用于洞察客户的投保对象、投保产品及投保时间点等偏好特征;根据加保目标结合历史总结出投保数据,如客户性别、年龄、婚姻状况、职业、收入、历史保费、历史投保保险类型、投保次数、投保额度、投保产品的次序及产品关注数据;通过数据库共享数据方式、接口传输数据方式、本地数据上传方式及C/S交互方式,从数据库、客户端、服务器获取相关的投保数据,根据目标标注工具对投保数据的标注信息进行目标标注,得到加保洞察样本集,按照自定义数据量比例或设置时间点将加保洞察样本集划分成训练集及测试集。
在一个可行的实现方案中,图3示出了本申请实施例所提供的一种加保业务的预测方法中对加保逻辑模型进行模型训练的流程示意图;在执行上述步骤S200根据加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型之前,还包括:
步骤S40,对训练集的二进制代码进行格式转换,转换后得到训练集的数据样本。
步骤S50,采用特征筛选策略对转换后的每个数据样本进行特征筛选,得到目标特征。
步骤S60,将目标特征的特征向量输入到加保逻辑模型中,并采用多种算法对加保逻辑模型进行循环训练,得到候选加保逻辑模型,其中,多种算法包含:逻辑回归算法、决策树C4.5算法、分类回归树算法、XGBoost树类算法、LightGBM优化算法和神经网络算法。
步骤S70,根据模型评价方式,利用加保洞察样本集的测试集对候选加保逻辑模型进行模型评价,得到模型评价结果。
步骤S80,根据评价结果,确定符合要求的选定加保逻辑模型。
步骤S90,采用贝叶斯优化算法对选定加保逻辑模型的超参数进行调优,得到最优参数的加保洞察模型。
步骤S40、S50、S60、S70、S80、S90在具体实施时,对获取到的加保洞察样本集中的数据样本进行效验,分析每个特征数据样本的缺失情况,过滤掉全部空值或取值单一的特征,同时对多个特征进行相关系分析处理,将相关性较高的特征进行降维处理,去除冗余数据,得到处理后的加保洞察样本集,然后对训练集的二进制代码进行格式转换,转换后得到字符串形式的数据样本,再采用特征筛选策略,记录训练集上每个特征g1,g2,…,gn的重要性作为基准值base1,base2,…,basen;然后对训练集的数据样本进行随机排序,重复上述操作多次后,得到多个不同随机排序后的特征重要性,如基于特征gi的重要性集合为nseti={nseti1,nseti2,…,newm};计算每个特征的得分,score=basei/percent0.75(nseti),得分以基准值除以训练集中四分之三分位数的值;并对得分进行筛选处理,取分数高的特征作为最终特征。
筛选特征以后,将目标特征的特征向量输入到加保逻辑模型中,并采用多种算法对加保逻辑模型进行循环训练,多种算法包含:逻辑回归算法、决策树C4.5算法、分类回归树算法、XGBoost树类算法、LightGBM优化算法和神经网络算法,得到候选加保逻辑模型,根据模型评价方式,利用测试集对候选加保逻辑模型进行模型评估,得到模型评价数据,模型评价数据介于0.5到1之间,模型评价数据越大说明模型精确度越高,基于模型评价数据进行分析,得到模型评价结果,并根据模型评价结果,得到选定加保逻辑模型。
选取到选定加保逻辑模型后,采用贝叶斯优化算法自动优选出选定加保逻辑模型最佳的超参数,在有限循环训练后,得到最优参数的加保洞察模型;具体计算方式如下:假设X=x1,x2,…,xn,代表超参数的搜索空间,每个X代表一组超参数组合,f代表从选定加保逻辑模型进行超参数调优,得到的最优参数的加保洞察模型,数据集D={(x1,y1),(x2,y2),…,(xn,yn)};也就是说,如果yi=f(xi)代表一组超参数,X通过选定加保逻辑模型f得到对应的结果y,那么由于每次选取参数都需要计算f(xi),每计算一次都会消耗大量参数,因此需要设置固定选参次数为T次,每一个t=1,…,T,在每一次循环计算时,输入一组超参数xi,得到yi=f(xi),在t次循环里面选取xt,使得在有限循环次数下,得到最优结果;
例如:在每一个迭代循环里面如何选择需要观测哪一个xt,xt是通过优化另一个函数acquisition function(αt)来选择的,也就是
Figure BDA0003597675400000121
采集函数选择Gaussian Process-Upper Confidence Bound(GP-UCB):
即,
Figure BDA0003597675400000131
其中,μt-1(x)和σt-1(x)是之前循环t-1次得到的数据集D={(x1,y1),(x2,y2),…,(xt-1,yt-1)}的平均值和标准差,β行代表默认设为一个常数,通过循环多次,最终得到最优的超参数xt;得到最优参数的加保洞察模型。
在一个可行的实现方案中,上述步骤S400中,根据模型评价结果,确定符合检测精度的加保洞察模型,包括:
步骤4001,若候选加保洞察模型的检测精度达到阈值时,则确定为加保洞察模型。
步骤4002,若候选加保洞察模型的检测精度未达到阈值时,则对候选加保洞察模型重新训练。
步骤4001、4002在具体实施时,根据模型评价结果,判断候选加保洞察模型的评价得分是否大于预设阈值,如果大于阈值,表示候选加保洞察模型符合检测精度,则从大于预设阈值的侯选加保洞察模型中加保洞察模型,如果候选加保洞察模型的评价得分小于预设阈值,则将模型做丢弃或重新训练处理。
在一个可行的实现方案中,图4示出了本申请实施例所提供的一种加保业务的预测方法中预测客户加保模型评估结果的流程示意图;上述步骤S500中,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,包括:
步骤S5001,如果加保洞察模型的评价指标超过第一预设阈值,则客户加保模型评估结果为优秀。
步骤S5002,如果加保洞察模型的评价指标等于第二预设阈值,则客户加保模型评估结果为良好。
步骤S5003,如果加保洞察模型的评价指标等于第三预设阈值,则客户加保模型评估结果为可选用。
步骤S5004,如果加保洞察模型的评价指标小于第四预设阈值,则客户加保模型评估结果不可用。
步骤S5001、S5002、S5003、S5004在具体实施时,根据每个特征、选择的算法及超参数,输出加保洞察模型的客户加保预测结果,并对客户加保模型评估结果进行分段描述,其中,如果加保洞察模型的评价指标超过第一预设阈值,则客户加保模型评估结果为优秀,如果加保洞察模型的评价指标等于第二预设阈值,则客户加保模型评估结果为良好,如果加保洞察模型的评价指标等于第三预设阈值,则客户加保模型评估结果为可选用,如果加保洞察模型的评价指标小于第四预设阈值,则客户加保模型评估结果不可用,其中,预设阈值分别为0.8代表优秀、0.6-0.8之间代表良好、0.5-0.6之间代表不可选用及小于0.5代表不可用。
在一个可行的实现方案中,图5示出了本申请实施例所提供的一种加保业务的预测方法中预测客户加保评级的流程示意图;上述步骤S500中,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,包括:
步骤S5005,将客户数量的比例划分为多个等级。
步骤S5006,按照每个等级对所有投保客户进行等级评价,得到每个客户的加保评级概率,客户数量的多个等级分别为10%、20%、30%和40%。
步骤S5005、S5006在具体实施时,根据加保洞察模型对所有客户进行预测分析,得到每个客户的加保预测概率值,并将加保预测概率值由大到小排序,然后将客户按照不同数量,如10%、20%、30%和40%比例划分为4个等级,根据不同等级分别对客户进行等级评价,等级越高表示客户加保概率越大。
在一个可行的实现方案中,图6示出了本申请实施例所提供的一种加保业务的预测方法中计算加保结果的影响值的流程示意图;上述步骤S500中,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,包括:
步骤S5007,根据加保洞察模型的目标特征,计算投保客户的预测值。
步骤S5008,根据投保客户的预测值,计算每个目标特征对预测值的贡献值,贡献值作为目标特征对加保结果的影响值。
步骤S5007、S5008在具体实施时,根据加保洞察模型的特征,选取目标特征,根据目标特征,计算每个数据样本中对应特征对最终预测值的贡献值,根据特征在所有的特征序列中不同的贡献值取平均值,得到该特征的影响概率值;例如:单个特征A单独构建加保洞察模型模型,生成预测结果Predict(A),将特征B加入加保洞察模型中,生成预测结果Predict(A,B),那么B预测值的贡献值是Predict(A,B)-Predict(A);针对多个特征序列中每种组合生成全局特征序列,求其中一个特征的预测值,根据投保客户的预测值,计算每个目标特征对预测值的贡献值后取平均值,即得到该特征的影响概率值。
在一个可行的实现方案中,图7示出了本申请实施例所提供的一种加保业务的预测方法中预测客户分类加保概率值的流程示意图;上述步骤S500中,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,包括:
步骤S5009,按照不同类型的目标特征,计算每个类型的客户分类加保概率值。
步骤S5010,基于连续型目标特征,按照指定分类进行划分,并分别计算每个分类的客户加保概率值,连续型目标特征包含:年龄、收入。
步骤S5009、S5010在具体实施时,按照性别、职业、婚姻状况分别计算各个类别的客户分类加保概率值,基于连续型目标特征如年龄、收入,按照指定类型进行划分,分别计算每个分类下的客户分类加保概率值,并生成特征重要性的描述性统计分析图表。
图8示出了本申请实施例所提供的一种加保业务的预测装置结构示意图,如图8所示,上述装置包括:
确定样本模块6001,用于根据目标标注工具对投保数据进行目标标注,得到加保洞察样本集;
模型训练模块6002,用于根据加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型;
模型评价模块6003,用于根据混淆矩阵与模型评价方式,利用加保洞察样本集的测试集对候选加保洞察模型进行模型评价,得到模型评价结果;
确定模型模块6004,用于根据模型评价结果,确定符合检测精度的加保洞察模型;
预测分析模型6005,用于根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果。
具体实施时,对投保数据进行目标标注之前还包括,通过数据对接方式获取根据历史经验总结出所需要的投保数据,其中,数据对接方式包含:数据库共享数据方式、接口传输数据方式、本地数据上传方式及C/S交互方式等;上述投保数据包含:客户性别、年龄、婚姻状况、职业、收入、历史保费、历史投保保险类型、投保次数、投保额度、投保产品的次序及产品关注数据,根据目标标注工具对投保数据进行目标标注,得到加保洞察样本集,加保洞察样本集分为训练集和测试集,上述加保是在原有保单保障的基础上增加保障,加保的方式一般分为两种,一种是以当前的年龄、职业、身体状况等条件另外投保新的保单,另一种是通过保单升级的方式进行加保;
对获取到的加保洞察样本集中的数据样本进行数据预处理,采用特征筛选策略对数据样本进行随机排序,依次计算数据样本中每个特征的得分,若得分超过集合阈值,则得到目标特征,上述集合阈值为基准值除以训练集中四分之三分位数的值;将目标特征输入到加保逻辑模型中进行循环训练,得到候选加保逻辑模型,根据模型评价方式,利用测试集对候选加保逻辑模型进行模型评估,按照模型评价结果,得到选定加保逻辑模型,再根据超参数对选定加保逻辑模型进行参数调优,在有限循环训练后,得到最优参数的加保洞察模型;从加保洞察样本集中选取三分之二的数据样本作为训练集,将选取的训练集输入到加保洞察模型中进行模型训练,直到模型达到迭代次数,得到候选加保洞察模型;
从加保洞察样本集中选取三分之一的数据样本作为测试集,利用测试集的数据样本对候选加保洞察模型进行模型评估时,通过多种数据分析算法,分析数据样本对候选加保洞察模型输出的预测结果有什么影响,得到候选加保洞察模型对测试样本集的预测结果,根据预测结果计算候选加保洞察模型的模型评价数据,然后,基于数据样本对模型评价数据进行统计特征分析,得到模型评估结果;
获取到候选加保洞察模型的评价结果后,判断候选加保洞察模型的评价结果是否大于预设阈值,如果大于阈值,则从大于预设阈值的侯选加保洞察模型中,加保洞察模型;
根据加保洞察模型对每个投保客户的客户性别、年龄、婚姻状况、职业、收入、历史保费、历史投保类型、投保次数、投保额度、投保产品的次序及产品关注数据进行预测分析,分别得到客户加保模型评估结果、客户加保评级、加保结果的影响值及客户分类加保概率值。
基于上述分析可知,与相关技术依赖于专业的数据科学家与业务人员配合来完成客户的加保洞察分析相比,本申请实施例提供的通过机器学习方法进行数据建模实现投保大数据的预测分析,可以分析训练样本集中每个目标特征对应特征对加保洞察模型的影响,从而精确的洞察出客户未来加保的走向,提升业务人员的工作效率;同时可以从保险产品和客户特征两个方面多类型对客户进行分析,最终得到一个精确预测结果。
本申请实施例所提供的加保业务的预测装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种加保业务的预测方法,其特征在于,包括:
根据目标标注工具对投保数据进行目标标注,得到加保洞察样本集;
根据所述加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型;
根据混淆矩阵与模型评价方式,利用所述加保洞察样本集的测试集对所述候选加保洞察模型进行模型评价,得到模型评价结果;
根据所述模型评价结果,确定符合检测精度的加保洞察模型;
根据所述加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果。
2.根据权利要求1的加保业务的预测方法,其特征在于,得到加保洞察样本集之前,还包括:
根据投保客户特征参数和投保时间点特征参数,确定加保目标;
获取加保目标的投保数据,投保数据包含:客户性别、年龄、婚姻状况、职业、收入、历史保费、历史投保类型、投保次数、投保额度、投保产品的次序及产品关注数据;
在投保数据中标注目标数据,得到加保洞察样本集的训练集及测试集。
3.根据权利要求1的加保业务的预测方法,其特征在于,根据加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型之前,还包括:
对训练集的二进制代码进行格式转换,转换后得到训练集的数据样本;
采用特征筛选策略对转换后的每个数据样本进行特征筛选,得到目标特征;
将目标特征的特征向量输入到加保逻辑模型中,并采用多种算法对加保逻辑模型进行循环训练,得到候选加保逻辑模型,其中,多种算法包含:逻辑回归算法、贪心算法、决策树C4.5算法、分类回归树算法、XGBoost树类算法、LightGBM优化算法和神经网络算法;
根据模型评价方式,利用加保洞察样本集的测试集对候选加保逻辑模型进行模型评价,得到模型评价结果;
根据评价结果,确定符合要求的选定加保逻辑模型;
采用贝叶斯优化算法对选定加保逻辑模型的超参数进行调优,得到最优参数的加保洞察模型。
4.根据权利要求1的加保业务的预测方法,其特征在于,根据模型评价结果,确定符合检测精度的加保洞察模型,包括:
若候选加保洞察模型的检测精度达到阈值时,则确定为加保洞察模型;
若候选加保洞察模型的检测精度未达到阈值时,则对候选加保洞察模型重新训练。
5.根据权利要求1的加保业务的预测方法,其特征在于,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,包括:
根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,其中,客户加保的预测结果分别为:客户加保模型评估结果、客户加保评级、加保结果的影响值及客户分类加保概率值。
6.根据权利要求5的加保业务的预测方法,其特征在于,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,具体包括:
如果加保洞察模型的评价指标超过第一预设阈值,则客户加保模型评估结果为优秀;
如果加保洞察模型的评价指标等于第二预设阈值,则客户加保模型评估结果为良好;
如果加保洞察模型的评价指标等于第三预设阈值,则客户加保模型评估结果为可选用;
如果加保洞察模型的评价指标小于第四预设阈值,则客户加保模型评估结果不可用。
7.根据权利要求5的加保业务的预测方法,其特征在于,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,具体包括:
将客户数量的比例划分为多个等级;
按照每个等级对所有投保客户进行等级评价,得到每个客户的加保评级概率,客户数量的多个等级分别为10%、20%、30%和40%。
8.根据权利要求5的加保业务的预测方法,其特征在于,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,具体包括:
根据加保洞察模型的目标特征,计算投保客户的预测值;
根据投保客户的预测值,计算每个目标特征对预测值的贡献值,贡献值作为目标特征对加保结果的影响值。
9.根据权利要求5的加保业务的预测方法,其特征在于,根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果,具体包括:
按照不同类型的目标特征,计算每个类型的客户分类加保概率值;
基于连续型目标特征,按照指定分类进行划分,并分别计算每个类型的客户分类加保概率值,连续型变量包含:年龄、收入。
10.一种加保业务的预测装置,其特征在于,装置包括:
确定样本模块,用于根据目标标注工具对投保数据进行目标标注,得到加保洞察样本集;
模型训练模块,用于根据加保洞察样本集的训练集对加保洞察模型进行模型训练,得到候选加保洞察模型;
模型评价模块,用于根据混淆矩阵与模型评价方式,利用加保洞察样本集的测试集对候选加保洞察模型进行模型评价,得到模型评价结果;
确定模型模块,用于根据模型评价结果,确定符合检测精度的加保洞察模型;
预测分析模型,用于根据加保洞察模型对所有投保客户进行预测分析,得到客户加保的预测结果。
CN202210396949.2A 2022-04-15 2022-04-15 一种加保业务的预测方法及装置 Pending CN114861989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210396949.2A CN114861989A (zh) 2022-04-15 2022-04-15 一种加保业务的预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210396949.2A CN114861989A (zh) 2022-04-15 2022-04-15 一种加保业务的预测方法及装置

Publications (1)

Publication Number Publication Date
CN114861989A true CN114861989A (zh) 2022-08-05

Family

ID=82631080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210396949.2A Pending CN114861989A (zh) 2022-04-15 2022-04-15 一种加保业务的预测方法及装置

Country Status (1)

Country Link
CN (1) CN114861989A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051296A (zh) * 2022-12-28 2023-05-02 中国银行保险信息技术管理有限公司 基于标准化保险数据的客户评价分析方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830734A (zh) * 2018-07-03 2018-11-16 平安健康保险股份有限公司 续保预测方法、装置、计算机设备及存储介质
CN109165983A (zh) * 2018-09-04 2019-01-08 中国平安人寿保险股份有限公司 保险产品推荐方法、装置、计算机设备和存储介质
CN109978257A (zh) * 2019-03-25 2019-07-05 上海赢科信息技术有限公司 车险的续保预测方法及系统
CN110389970A (zh) * 2019-06-11 2019-10-29 中国平安财产保险股份有限公司 用户意向预测方法、装置、计算机设备及存储介质
CN112053251A (zh) * 2020-09-08 2020-12-08 阳光保险集团股份有限公司 保险费用配置方法、装置、设备及存储介质
CN112163424A (zh) * 2020-09-17 2021-01-01 中国建设银行股份有限公司 数据的标注方法、装置、设备和介质
CN113011596A (zh) * 2021-02-20 2021-06-22 阳光保险集团股份有限公司 一种模型自动更新方法、装置、系统及电子设备
CN113822724A (zh) * 2021-09-29 2021-12-21 平安银行股份有限公司 企业客户续保预测方法、装置、介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830734A (zh) * 2018-07-03 2018-11-16 平安健康保险股份有限公司 续保预测方法、装置、计算机设备及存储介质
CN109165983A (zh) * 2018-09-04 2019-01-08 中国平安人寿保险股份有限公司 保险产品推荐方法、装置、计算机设备和存储介质
CN109978257A (zh) * 2019-03-25 2019-07-05 上海赢科信息技术有限公司 车险的续保预测方法及系统
CN110389970A (zh) * 2019-06-11 2019-10-29 中国平安财产保险股份有限公司 用户意向预测方法、装置、计算机设备及存储介质
CN112053251A (zh) * 2020-09-08 2020-12-08 阳光保险集团股份有限公司 保险费用配置方法、装置、设备及存储介质
CN112163424A (zh) * 2020-09-17 2021-01-01 中国建设银行股份有限公司 数据的标注方法、装置、设备和介质
CN113011596A (zh) * 2021-02-20 2021-06-22 阳光保险集团股份有限公司 一种模型自动更新方法、装置、系统及电子设备
CN113822724A (zh) * 2021-09-29 2021-12-21 平安银行股份有限公司 企业客户续保预测方法、装置、介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051296A (zh) * 2022-12-28 2023-05-02 中国银行保险信息技术管理有限公司 基于标准化保险数据的客户评价分析方法及系统
CN116051296B (zh) * 2022-12-28 2023-09-29 中国银行保险信息技术管理有限公司 基于标准化保险数据的客户评价分析方法及系统

Similar Documents

Publication Publication Date Title
CN109657805B (zh) 超参数确定方法、装置、电子设备及计算机可读介质
Sensini Selection of Determinants in Corporate Financial Distress
WO2018192348A1 (zh) 数据处理方法、装置及服务器
CN109583966A (zh) 一种高价值客户识别方法、系统、设备及存储介质
US20170154268A1 (en) An automatic statistical processing tool
CN112559900B (zh) 产品推荐方法、装置、计算机设备和存储介质
CN111881158A (zh) 一种管理报表数据处理方法、装置、计算机系统及可读存储介质
CN110766481A (zh) 客户数据处理方法、装置、电子设备及计算机可读介质
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN114861989A (zh) 一种加保业务的预测方法及装置
CN111626855A (zh) 债券信用利差预测方法及系统
CN113469826A (zh) 一种信息处理的方法、装置、设备及存储介质
CN117333285A (zh) 数据处理方法、装置、存储介质及电子设备
Jiang et al. An examination of the factors influencing software development effort
CA3160715A1 (en) Systems and methods for business analytics model scoring and selection
CN116911994A (zh) 对外贸易风险预警系统
CN108305174B (zh) 资源处理方法、装置、存储介质和计算机设备
CN112308294B (zh) 违约概率预测方法及装置
CN115905655A (zh) 一种用户画像构建方法、装置、设备及可读存储介质
CN115660733A (zh) 一种基于人工智能的销量预测系统及方法
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN112613920A (zh) 一种流失几率预测方法及装置
CN112927092A (zh) 理赔趋势预测方法、装置、设备及存储介质
US11593388B2 (en) Indexing based on feature importance
CN118014451B (zh) 软件项目的数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination