CN113689083A - 新能源车保险风险因子的处理方法、装置及计算机设备 - Google Patents

新能源车保险风险因子的处理方法、装置及计算机设备 Download PDF

Info

Publication number
CN113689083A
CN113689083A CN202110867040.6A CN202110867040A CN113689083A CN 113689083 A CN113689083 A CN 113689083A CN 202110867040 A CN202110867040 A CN 202110867040A CN 113689083 A CN113689083 A CN 113689083A
Authority
CN
China
Prior art keywords
insurance
risk factor
insurance risk
risk factors
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110867040.6A
Other languages
English (en)
Inventor
刘彬
秦建然
高鹰霞
张兴明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank Of China Insurance Information Technology Management Co ltd
Original Assignee
Bank Of China Insurance Information Technology Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank Of China Insurance Information Technology Management Co ltd filed Critical Bank Of China Insurance Information Technology Management Co ltd
Priority to CN202110867040.6A priority Critical patent/CN113689083A/zh
Publication of CN113689083A publication Critical patent/CN113689083A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请公开一种新能源车保险风险因子的处理方法、装置及计算机设备,涉及计算机技术领域,方法包括:确定样本车辆的保险风险因子,保险风险因子包括第一保险风险因子、第二保险风险因子、第三保险风险因子;计算第一保险风险因子、第二保险风险因子、第三保险风险因子对目标变量的影响权重,生成所有保险风险因子的第一排序结果;根据第一排序结果提取重要风险因子;对重要风险因子进行类别化水平分组,确定各个重要风险因子对应的指标分组结果,以重要风险因子各分组对应目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。

Description

新能源车保险风险因子的处理方法、装置及计算机设备
技术领域
本申请涉及计算机技术领域,尤其涉及到一种新能源车保险风险因子的处理方法、装置及计算机设备。
背景技术
保险经营的核心是产品,产品开发的核心在于定价,风险因子是实现保费与风险相匹配差异化定价的关键要素。在物联网时代,保险产品定价中不断面临大规模新型风险变量的挑战,快速筛查和类别化重要风险变量就尤为重要。当前我国新能源汽车高速发展且具备动态车联网驾驶数据采集的条件,但由于新能源汽车的驾驶数据标签较多且更新较快,不同的标签数据变量对保险风险的影响和解释能力不同,故为了更好的通过车联网数据刻画保险风险,提升保险产品差异化定价的科学合理性,需要从车联网大数据中提取出对保险风险影响较大的保险风险因子,并且实现风险因子的自动类别化分组,为进一步的风险成本定价提供支持,对新能源汽车的保险风险评估应用场景具有重大意义。
目前在进行保险风险因子提取时,主要由风险评估人员依据历史理赔数据,并按照预设的评估规则进行重要风险因子的评估。然而,这种人工风险评估方式要求风险评估人员具备较高的风险分析知识和风险分析专业技能,且这种人工的风险分析方式分析效率和分析准确率都比较低,需要投入的大量的人力和物力。
发明内容
有鉴于此,本申请提供了一种新能源车保险风险因子的处理方法、装置及计算机设备,可用于解决在进行保险风险因子提取时,提取效率低且准确率不高的技术问题。
根据本申请的一个方面,提供了一种新能源车保险风险因子的处理方法,该方法包括:
确定各个样本车辆的保险风险因子,所述保险风险因子包括传统风险因子对应的第一保险风险因子、车联网风险因子对应的第二保险风险因子、传统风险因子和车联网风险因子衍生构成的第三保险风险因子;
计算所述第一保险风险因子、所述第二保险风险因子以及所述第三保险风险因子对目标变量的影响权重,并依据所述影响权重生成所有保险风险因子的第一排序结果;
根据所述第一排序结果提取出预设数量个重要风险因子;
对所述重要风险因子进行类别化水平分组,确定各个所述重要风险因子对应的指标分组结果,以所述重要风险因子各分组对应所述目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。
根据本申请的另一个方面,提供了一种新能源车保险风险因子的处理装置,该装置包括:
第一确定模块,用于确定各个样本车辆的保险风险因子,所述保险风险因子包括传统风险因子对应的第一保险风险因子、车联网风险因子对应的第二保险风险因子、传统风险因子和车联网风险因子衍生构成的第三保险风险因子;
生成模块,用于计算所述第一保险风险因子、所述第二保险风险因子以及所述第三保险风险因子对目标变量的影响权重,并依据所述影响权重生成所有保险风险因子的第一排序结果;
提取模块,用于根据所述第一排序结果提取出预设数量个重要风险因子;
第二确定模块,用于对所述重要风险因子进行类别化水平分组,确定各个所述重要风险因子对应的指标分组结果,以所述重要风险因子各分组对应所述目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述新能源车保险风险因子的处理方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述新能源车保险风险因子的处理方法。
借由上述技术方案,本申请提供的一种新能源车保险风险因子的处理方法、装置及计算机设备,与目前新能源车保险风险因子的处理方式相比,本申请可在确定出各个样本车辆的第一保险风险因子、第二保险风险因子以及第三保险风险因子后,计算第一保险风险因子、第二保险风险因子以及第三保险风险因子对目标变量的影响权重,并依据影响权重生成所有保险风险因子的第一排序结果;进一步根据第一排序结果提取出预设数量个重要风险因子;最后对重要风险因子进行类别化水平分组,确定各个重要风险因子对应的指标分组结果,以重要风险因子各分组对应目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。通过本申请中的技术方案,可在处理类似新能源汽车这类动态、高频数据的变量水平分组时,通过基于数据驱动的客观分组方式在减少人为主观判断的同时,可以极大提升分组效率。并且依托统计与机器学习方法筛选出重要风险因子,可确保重要风险因子提取的准确性,并且可以提高标签数据变量对保险风险的影响和解释能力,以便以更为全面、立体的信息视角洞察保险风险,提升保险产品差异化定价的科学合理性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种新能源车保险风险因子的处理方法的流程示意图;
图2示出了本申请实施例提供的另一种新能源车保险风险因子的处理方法的流程示意图;
图3示出了本申请实施例提供的一种新能源车保险风险因子的处理装置的结构示意图;
图4示出了本申请实施例提供的另一种新能源车保险风险因子的处理装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在进行保险风险因子提取时,需要投入的大量的人力和物力,导致分析效率和分析准确率低的问题,本申请提供了一种新能源车保险风险因子的处理方法,如图1所示,该方法包括:
101、确定各个样本车辆的保险风险因子,保险风险因子包括传统风险因子对应的第一保险风险因子、车联网风险因子对应的第二保险风险因子、传统风险因子和车联网风险因子衍生构成的第三保险风险因子。
保险经营的核心是产品,产品开发的核心在于定价,风险因子是实现保费与风险相匹配差异化定价的关键要素。在物联网时代,保险产品定价中不断面临大规模新型风险变量的挑战,快速筛查和类别化重要风险变量就尤为重要。其中,传统风险因子可包括:驾驶人年龄、性别、驾龄、车龄、车价、交通违章记录等。随着车联网的发展,车辆的驾驶数据可以上传到后台服务器,进而能够获取到大量的车联网风险因子,车联网风险因子可包括:行驶速度的平均值和方差,急加速、急减速和急转弯次数或频率,超速驾驶里程、时长、次数,疲劳驾驶里程、时长、次数,高峰时段驾驶里程、时长、次数,深夜时段驾驶里程、时长、次数,恶劣天气驾驶里程、时长、次数,恶劣路况驾驶里程、时长、次数,总行驶里程,观察天数,运营天数等。
对于本实施例,鉴于新能源汽车的驾驶数据标签较多且更新较快,不同的标签数据变量对保险风险的影响和解释能力不同。故为了更好的通过车联网数据刻画保险风险,提升保险产品差异化定价的科学合理性,基于市场需求和行业发展前景,本申请通过设计出快速筛选重要保险风险变量的机制与方法,通过融合传统风险因子和车联网风险因子,并依托统计与机器学习方法,以更为全面、立体的信息视角洞察风险,可以科学高效的从车联网大数据中提取出对保险风险影响较大的保险风险因子,实现集约型、标准化的新能源汽车保险风险管理,有助于保险公司精确计算客户风险、细分客户群体。
为了克服现有技术中在进行保险风险因子提取时,提取效率低且准确率不高的技术问题,本申请实施例可首先确定出各个样本车辆的第一保险风险因子、第二保险风险因子以及第三保险风险因子,进而依据第一保险风险因子、第二保险风险因子以及第三保险风险因子分析获取重要风险因子,并对重要风险因子进行类别化水平分组,确定各个重要风险因子对应的指标分组结果。本申请实施例主要适用于对新能源车保险风险因子的处理分析场景,本发明实施例的执行主体为能够执行对新能源车保险风险因子的处理分析装置或者设备,具体可以设置在客户端或者服务器一侧。
102、计算第一保险风险因子、第二保险风险因子以及第三保险风险因子对目标变量的影响权重,并依据影响权重生成所有保险风险因子的第一排序结果。
在具体的应用场景中,由于不同的标签数据变量对保险风险的影响和解释能力不同,故可在获取到大范围的保险风险因子后,通过逐个分析保险风险因子对目标变量的影响权重,进而基于影响权重生成所有保险风险因子的第一排序结果,便于直观显示各个保险风险因子对保险风险的影响大小,进而有利于后续对重要风险因子的提取。例如,第一保险风险因子、第二保险风险因子以及第三保险风险因子共包含100个,这100个保险风险因子作为未知先验信息的新型因子,可进一步分别计算对目标变量的影响权重,并依据影响权重由大到小的顺序生成所有保险风险因子的第一排序结果,以便基于第一排序结果客观选定预设数量个因子重要性较高的保险风险因子,为进一步风险成本定价建模做了有利的支撑。
103、根据第一排序结果提取出预设数量个重要风险因子。
在具体的应用场景中,由于保险风险因子数量众多,且对保险风险的影响和解释能力不同。故为了避免冗余保险风险因子对保险风险分析的干扰,在本实施例中,可在确定出所有保险风险因子的第一排序结果后,基于第一排序结果提取出预设数量个重要风险因子。具体可按照第一排序结果中由大到小的排列顺序,提取出预设数量个对目标变量的影响权重较高的重要风险因子。
104、对重要风险因子进行类别化水平分组,确定各个重要风险因子对应的指标分组结果,以重要风险因子各分组对应目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。
在本实施例中,在提取出重要风险因子后,可进一步实现对重要风险因子的自动类别化水平分组,为进一步的风险成本定价提供支持。具体的,可以各个重要风险因子对保险风险的水平维度进行分析,具体可基于目标变量(如已决赔款额)相同时重要风险因子所对应的数值,为重要风险因子进行数值分组的划分,以重要风险因子各分组对应目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。其中,第一预设阈值和第二预设阈值占指标总误差的比例为0~1之间的数值,具体数值可根据实际应用场景进行设定。
例如,对于平均行驶里程这一重要保险风险数值,可通过分析,确定平均行驶里程对应的类别化水平分组结果,如可确定初始类别化水平分组结果包括三组:[5k,10k]、[10k,12k]、[12k,…],对于上述三组分组结果,可分别计算出目标变量平均数值,如[5k,10k]在水平分组下对应的已决赔款额这一目标变量的平均数值为3000,对于水平分组[10k,12k]的已决赔款额这一目标变量的平均数值为3500,对于水平分组[12k,…]的已决赔款额这一目标变量的平均数值为4000。在进行类别化水平分组时,应不断进行分组区间或分组结果的调整,以使最终的类别化水平分组结果满足在每个水平分组内,不同样本车辆的重要风险因子对应目标变量的指标均方误差小于预设均方误差阈值。如根据样本车辆所对应平均行驶里程的数值,确定[5k,10k]这一水平分组内共包含样本车辆A、样本车辆B、样本车辆C,则可进一步获取样本车辆A、样本车辆B、样本车辆C对应的已决赔款额这一目标变量的数值大小,如分别为2998、3002、3098,则可以重要风险因子各分组对应目标变量的指标均方误差下降为原则,判断样本车辆A、样本车辆B、样本车辆C关于目标变量的指标值差异是否小于第一预设阈值,且[5k,10k]这一水平分组与[10k,12k]以及[12k,…]组间的目标变量指标值差异是否大于第二预设阈值,若是,则可确定水平分组正确,完成风险导向的因子水平分类。反之,则可判定分组不正确,则应进一步执行类别化水平分组流程,通过重新进行分组的划分,或重新确定分组区间,以使类别化水平分组结果满足分组划分条件。
通过本实施例中新能源车保险风险因子的处理方法,可在确定出各个样本车辆的第一保险风险因子、第二保险风险因子以及第三保险风险因子后,计算第一保险风险因子、第二保险风险因子以及第三保险风险因子对目标变量的影响权重,并依据影响权重生成所有保险风险因子的第一排序结果;进一步根据第一排序结果提取出预设数量个重要风险因子;最后对重要风险因子进行类别化水平分组,确定各个重要风险因子对应的指标分组结果,以重要风险因子各分组对应目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。通过本申请中的技术方案,可在处理类似新能源汽车这类动态、高频数据的变量水平分组时,通过基于数据驱动的客观分组方式在减少人为主观判断的同时,可以极大提升分组效率。并且依托统计与机器学习方法筛选出重要风险因子,可确保重要风险因子提取的准确性,可以提高标签数据变量对保险风险的影响和解释能力,以便以更为全面、立体的信息视角洞察保险风险,提升保险产品差异化定价的科学合理性。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种新能源车保险风险因子的处理方法,如图2所示,该方法包括:
201、确定各个样本车辆的保险风险因子,保险风险因子包括传统风险因子对应的第一保险风险因子、车联网风险因子对应的第二保险风险因子、传统风险因子和车联网风险因子衍生构成的第三保险风险因子。
对于本实施例,在具体的应用场景中,可按照整车组织数据方式,采集样本车辆的保险数据(如包括承保和理赔数据等),以及过去某一时间段内的车联网数据(如选取观测过去滚动一年内的车联参数进行清洗、加工形成车联数据),最终通过车架号和保单生效日期(如LBVIN************20180101)为关键主键进行匹配。进一步可在保险数据中提取出第一保险风险因子,如可包括驾驶人年龄、性别、驾龄、车龄、车价、交通违章记录等;可在车联网数据中提取出第二保险风险因子,如可包括行驶速度的平均值和方差,急加速、急减速和急转弯次数或频率,超速驾驶里程、时长、次数,疲劳驾驶里程、时长、次数,高峰时段驾驶里程、时长、次数,深夜时段驾驶里程、时长、次数,恶劣天气驾驶里程、时长、次数,恶劣路况驾驶里程、时长、次数,总行驶里程,观察天数,运营天数等。鉴于保险风险因子数量较多,且对于不同的保险风险因子可具有相关性,故为了丰富保险风险因子的特征维度,同时削减因子之间的相关性,可通过对原始因子之间相关性较高的因子进行信息整合,在已有因子基础上,生成衍生因子。例如,可使用衍生因子“日均行驶里程”和“观测期行驶密度”来聚合总行驶里程、观察天数、运营天数的信息,将里程暴露分解为“风险单位*风险暴露频率*风险暴露强度”的形式,即“观察天数*观测期行驶密度*日均行驶里程”。相应的,实施例步骤201具体可以包括:按照预设主键匹配规则,采集预设时间段内各个样本车辆的保险数据以及车联网数据;依据保险数据以及车联网数据分别生成第一保险风险因子和第二保险风险因子;依据第一保险风险因子和/或第二保险风险因子中的至少两种,生成降维处理后的第三保险风险因子。
在具体的应用场景中,在依据第一保险风险因子和/或第二保险风险因子中的至少两种,生成降维处理后的第三保险风险因子时,实施例步骤具体可以包括:计算第一保险风险因子和/或第二保险风险因子中至少两种保险风险因子的相关性;将相关性大于第三预设阈值的保险风险因子进行信息整合,生成降维处理后的第三保险风险因子。其中,第三预设阈值为0~1之间的数值,具体数值可根据实际应用场景进行设定。
202、将第一保险风险因子、第二保险风险因子以及第三保险风险因子输入机器学习XGBOOST模型,以便机器学习XGBOOST模型通过使得损失函数下降最快的方式,基于均方误差的大小计算生成所有保险风险因子的第一排序结果。
对于本实施例,在具体的应用场景中,可基于机器学习XGBOOST模型生成所有保险风险因子的第一排序结果。其中,机器学习XGBOOST模型是应用于XGBOOST算法构建生成的,XGBOOST算法是以CART为基分类器的集成学习方法之一。与随机森林赋予每一颗决策树相同的投票权重不同,XGBOOST算法中下一棵决策树的生成和前一棵决策树的训练和预测相关(通过对上一轮决策树训练准确率较低的样本赋予更高的学习权重来提高模型准确率)。相比于其他集成学习算法,XGBOOST算法一方面通过引入正则项和列抽样的方法提高了模型稳健性,另一方面又在每棵树选择分裂点的时候采取并行化策略从而极大提高了模型运行的速度。
相应的,对于本实施例步骤,可将第一保险风险因子、第二保险风险因子以及第三保险风险因子输入机器学习XGBOOST模型中,基于均方误差(MSE)的大小计算因子重要性排序结果。具体可通过使得损失函数(一种度量预测值与真实值之间差异的算式)下降最快的方式,基于分类回归树在均方误差(MSE)减少的过程上,计算各个因子在分类过程中对MSE下降的贡献大小,形成因子重要性得分及排序结果。其中,均方误差(MSE)的公式特征描述为:
Figure BDA0003187662630000091
式中,MSE(Y)为目标变量的均方误差大小,n为样本总量,y为各个分组中各个样本对应目标变量的实际值,
Figure BDA0003187662630000092
为各个分组中目标变量的平均值。通过上述计算公式,可通过树的分类,使均方误差(MSE)逐渐减少,形成最优数组,并记录各个保险风险因子对均方误差(MSE)的贡献大小,依据贡献大小生成因子重要性排序结果。
例如,通过使得损失函数下降最快的方式,基于均方误差(MSE)的大小,确定日均行驶里程因子重要性得分:22%、当年NCD因子重要性得分:15%、黎明行驶里程占比因子重要性得分:7%、车价因子重要性得分:5%、额定最高时速5%;则可进一步依据因子重要性得分对上述保险风险因子进行重要性排序,进一步可确定上述五个因子对应的重要性排序1至5分别为:日均行驶里程、当年NCD因子、黎明行驶里程占比、车价、额定最高时速。
203、判断第一排序结果是否符合重要风险因子的筛选规则,若是,则按照排序顺序在第一排序结果中提取出预设数量个重要风险因子。
对于本实施例,在具体的应用场景中,由于第一排序结果中既包含不相关的第一保险风险因子和第二保险风险因子,同样还包括依据第一保险风险因子和第二保险风险因子信息整合构成的第三保险风险因子。因而可造成在第一排序结果中,同时包含多个相关的保险风险因子。故为了保证特征维度的多样性,精简第一排序结果,使其中包含多个维度下不相关的保险风险因子。故在本实施例中,可首先在第一排序结果中剔除相关保险风险因子中所涵盖信息较少的保险风险因子。如在第一排序结果中既包括总行驶里程、观察天数,也同样包括日均行驶里程,由于总行驶里程、观察天数与日均行驶里程表示相同的特征维度,且日均行驶里程所涵盖的特征信息更为明显,故可将总行驶里程、观察天数在第一排序结果中剔除。
具体的,在判断第一排序结果是否符合重要风险因子的筛选规则时,可通过因子之间的相关系数矩阵分析,确定第一排序结果是否包含冗余的保险风险因子。相应的,实施例步骤203具体可以包括:计算第一排序结果中任意两个保险风险因子的相关系数;判断相关系数是否小于第四预设阈值。
204、若判断第一排序结果不符合重要风险因子的筛选规则,则按照预设修正规则对第一排序结果进行修正,得到所有保险风险因子的第二排序结果,并在第二排序结果中提取出预设数量个重要风险因子。
对于本实施例,在具体的应用场景中,实施例步骤204具体可以包括:若存在任意两个保险风险因子的相关系数大于或等于第四预设阈值,则在第一排序结果中剔除其中一个保险风险因子,得到所有保险风险因子的第二排序结果,并按照排序顺序在第二排序结果中提取出预设数量个重要风险因子。其中,第四预设阈值为0~1之间的数值,具体数值可根据实际应用场景进行设定;预设数量表示所提取因子变量的维度,具体数值可根据实际应用场景进行设定。
205、基于分类与回归树模型对重要风险因子进行数据分割,确定各个重要风险因子对应的指标分组结果,以重要风险因子各分组对应目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。
对于本实施例,可在风险因子类别化水平分组上,对于不具有先验经验的新型车联网数据因子使用基于分类与回归树模型(CART)的最优自动分组,实现数据驱动型的因子类别化水平分组,有效解决的传统方法面临新因子入参时因子水平化的效率问题。基本思想是用单变量分类与回归树模型(CART),对上面筛选出的重要风险因子逐个进行数据分割,按照顺位给出分割点。其中分类与回归树模型是机器学习的基学习器模型。CART的本质是对特征空间进行二元划分,划分的依据是均方误差的下降,组内均方误差越低,代表组内元素的同质性越高,即分组越有效果,CART划分的节点即是分割之后加权平均均方误差下降最多的节点。
借由上述新能源车保险风险因子的处理方法,可在确定出各个样本车辆的第一保险风险因子、第二保险风险因子以及第三保险风险因子后,计算第一保险风险因子、第二保险风险因子以及第三保险风险因子对目标变量的影响权重,并依据影响权重生成所有保险风险因子的第一排序结果;进一步根据第一排序结果提取出预设数量个重要风险因子;最后对重要风险因子进行类别化水平分组,确定各个重要风险因子对应的指标分组结果,以重要风险因子各分组对应目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。通过本申请中的技术方案,可在处理类似新能源汽车这类动态、高频数据的变量水平分组时,通过基于数据驱动的客观分组方式在减少人为主观判断的同时,可以极大提升分组效率。并且依托统计与机器学习方法筛选出重要风险因子,可确保重要风险因子提取的准确性,可以提高标签数据变量对保险风险的影响和解释能力,以便以更为全面、立体的信息视角洞察保险风险,提升保险产品差异化定价的科学合理性。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种新能源车保险风险因子的处理装置,如图3所示,该装置包括:第一确定模块31、生成模块32、提取模块33、第二确定模块34;
第一确定模块31,可用于确定各个样本车辆的保险风险因子,保险风险因子包括传统风险因子对应的第一保险风险因子、车联网风险因子对应的第二保险风险因子、传统风险因子和车联网风险因子衍生构成的第三保险风险因子;
生成模块32,可用于计算第一保险风险因子、第二保险风险因子以及第三保险风险因子对目标变量的影响权重,并依据影响权重生成所有保险风险因子的第一排序结果;
提取模块33,可用于根据第一排序结果提取出预设数量个重要风险因子;
第二确定模块34,可用于对重要风险因子进行类别化水平分组,确定各个重要风险因子对应的指标分组结果,以重要风险因子各分组对应目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。
在具体的应用场景中,第一确定模块31,如图4所示,具体可包括:采集单元311、第一生成单元312、第二生成单元313;
采集单元311,可用于按照预设主键匹配规则,采集预设时间段内各个样本车辆的保险数据以及车联网数据;
第一生成单元312,可用于依据保险数据以及车联网数据分别生成第一保险风险因子和第二保险风险因子;
第二生成单元313,可用于依据第一保险风险因子和/或第二保险风险因子中的至少两种,生成降维处理后的第三保险风险因子。
相应的,第二生成单元313,具体可用于计算第一保险风险因子和/或第二保险风险因子中至少两种保险风险因子的相关性;将相关性大于第三预设阈值的保险风险因子进行信息整合,生成降维处理后的第三保险风险因子。
在具体的应用场景中,生成模块32,具体可用于将第一保险风险因子、第二保险风险因子以及第三保险风险因子输入机器学习XGBOOST模型,以便机器学习XGBOOST模型通过使得损失函数下降最快的方式,基于均方误差的大小计算生成所有保险风险因子的第一排序结果。
相应的,为了在所有保险风险因子的第一排序结果提取出预设数量个重要风险因子,如图4所示,提取模块33,具体可包括:第一提取单元331、第二提取单元332;
第一提取单元331,可用于判断第一排序结果是否符合重要风险因子的筛选规则,若是,则按照排序顺序在第一排序结果中提取出预设数量个重要风险因子;
第二提取单元332,可用于若判断第一排序结果不符合重要风险因子的筛选规则,则按照预设修正规则对第一排序结果进行修正,得到所有保险风险因子的第二排序结果,并在第二排序结果中提取出预设数量个重要风险因子。
相应的,在判断第一排序结果是否符合重要风险因子的筛选规则时,第一提取单元331,具体可用于计算第一排序结果中任意两个保险风险因子的相关系数;判断相关系数是否小于第四预设阈值。
相应的,若判断第一排序结果不符合重要风险因子的筛选规则时,第二提取单元332,具体可用于若存在任意两个保险风险因子的相关系数大于或等于第四预设阈值,则在第一排序结果中剔除其中一个保险风险因子,得到所有保险风险因子的第二排序结果,并按照排序顺序在第二排序结果中提取出预设数量个重要风险因子。
在具体的应用场景中,第二确定模块34,具体可用于基于分类与回归树模型对重要风险因子进行数据分割,确定各个重要风险因子对应的指标分组结果,以重要风险因子各分组对应目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。
需要说明的是,本实施例提供的一种新能源车保险风险因子的处理装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种非易失性存储介质,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的新能源车保险风险因子的处理方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;非易失性存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的新能源车保险风险因子的处理方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可在确定出各个样本车辆的第一保险风险因子、第二保险风险因子以及第三保险风险因子后,计算第一保险风险因子、第二保险风险因子以及第三保险风险因子对目标变量的影响权重,并依据影响权重生成所有保险风险因子的第一排序结果;进一步根据第一排序结果提取出预设数量个重要风险因子;最后对重要风险因子进行类别化水平分组,确定各个重要风险因子对应的指标分组结果,以重要风险因子各分组对应目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。通过本申请中的技术方案,可在处理类似新能源汽车这类动态、高频数据的变量水平分组时,通过基于数据驱动的客观分组方式在减少人为主观判断的同时,可以极大提升分组效率。并且依托统计与机器学习方法筛选出重要风险因子,可确保重要风险因子提取的准确性,可以提高标签数据变量对保险风险的影响和解释能力,以便以更为全面、立体的信息视角洞察保险风险,提升保险产品差异化定价的科学合理性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种新能源车保险风险因子的处理方法,其特征在于,包括:
确定各个样本车辆的保险风险因子,所述保险风险因子包括传统风险因子对应的第一保险风险因子、车联网风险因子对应的第二保险风险因子、传统风险因子和车联网风险因子衍生构成的第三保险风险因子;
计算所述第一保险风险因子、所述第二保险风险因子以及所述第三保险风险因子对目标变量的影响权重,并依据所述影响权重生成所有保险风险因子的第一排序结果;
根据所述第一排序结果提取出预设数量个重要风险因子;
对所述重要风险因子进行类别化水平分组,确定各个所述重要风险因子对应的指标分组结果,以所述重要风险因子各分组对应所述目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。
2.根据权利要求1所述的方法,其特征在于,所述确定各个样本车辆的保险风险因子,具体包括:
按照预设主键匹配规则,采集预设时间段内各个样本车辆的保险数据以及车联网数据;
依据所述保险数据以及所述车联网数据分别生成第一保险风险因子和第二保险风险因子;
依据所述第一保险风险因子和/或第二保险风险因子中的至少两种,生成降维处理后的第三保险风险因子。
3.根据权利要求2所述的方法,其特征在于,所述依据所述第一保险风险因子和/或第二保险风险因子中的至少两种,生成降维处理后的第三保险风险因子,具体包括:
计算所述第一保险风险因子和/或第二保险风险因子中至少两种保险风险因子的相关性;
将所述相关性大于第三预设阈值的保险风险因子进行信息整合,生成降维处理后的第三保险风险因子。
4.根据权利要求1所述的方法,其特征在于,所述计算所述第一保险风险因子、所述第二保险风险因子以及所述第三保险风险因子对目标变量的影响权重,并依据所述影响权重生成所有保险风险因子的第一排序结果,具体包括:
将所述第一保险风险因子、所述第二保险风险因子以及所述第三保险风险因子输入机器学习XGBOOST模型,以便所述机器学习XGBOOST模型通过使得损失函数下降最快的方式,基于均方误差的大小计算生成所有保险风险因子的第一排序结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一排序结果提取出预设数量个重要风险因子,具体包括:
判断所述第一排序结果是否符合重要风险因子的筛选规则,若是,则按照排序顺序在所述第一排序结果中提取出预设数量个重要风险因子;
若否,则按照预设修正规则对所述第一排序结果进行修正,得到所有保险风险因子的第二排序结果,并在所述第二排序结果中提取出预设数量个重要风险因子。
6.根据权利要求5所述的方法,其特征在于,所述判断所述第一排序结果是否符合重要风险因子的筛选规则,具体包括:
计算所述第一排序结果中任意两个保险风险因子的相关系数;
判断所述相关系数是否小于第四预设阈值;
所述若否,则按照预设修正规则对所述第一排序结果进行修正,得到所有保险风险因子的第二排序结果,并在所述第二排序结果中提取出预设数量个重要风险因子,具体包括:
若存在任意两个保险风险因子的相关系数大于或等于所述第四预设阈值,则在所述第一排序结果中剔除其中一个保险风险因子,得到所有保险风险因子的第二排序结果,并按照排序顺序在所述第二排序结果中提取出预设数量个重要风险因子。
7.根据权利要求1所述的方法,其特征在于,所述对所述重要风险因子进行类别化水平分组,确定各个所述重要风险因子对应的指标分组结果,以所述重要风险因子各分组对应所述目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类,具体包括:
基于分类与回归树模型对所述重要风险因子进行数据分割,确定各个所述重要风险因子对应的指标分组结果,以所述重要风险因子各分组对应所述目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。
8.一种新能源车保险风险因子的处理装置,其特征在于,包括:
第一确定模块,用于确定各个样本车辆的保险风险因子,所述保险风险因子包括传统风险因子对应的第一保险风险因子、车联网风险因子对应的第二保险风险因子、传统风险因子和车联网风险因子衍生构成的第三保险风险因子;
生成模块,用于计算所述第一保险风险因子、所述第二保险风险因子以及所述第三保险风险因子对目标变量的影响权重,并依据所述影响权重生成所有保险风险因子的第一排序结果;
提取模块,用于根据所述第一排序结果提取出预设数量个重要风险因子;
第二确定模块,用于对所述重要风险因子进行类别化水平分组,确定各个所述重要风险因子对应的指标分组结果,以所述重要风险因子各分组对应所述目标变量的指标均方误差下降为原则,使各个分组组内的目标变量指标值差异小于第一预设阈值,组间的目标变量指标值差异大于第二预设阈值,完成风险导向的因子水平分类。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的新能源车保险风险因子的处理方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的新能源车保险风险因子的处理方法。
CN202110867040.6A 2021-07-29 2021-07-29 新能源车保险风险因子的处理方法、装置及计算机设备 Pending CN113689083A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110867040.6A CN113689083A (zh) 2021-07-29 2021-07-29 新能源车保险风险因子的处理方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110867040.6A CN113689083A (zh) 2021-07-29 2021-07-29 新能源车保险风险因子的处理方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN113689083A true CN113689083A (zh) 2021-11-23

Family

ID=78578267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110867040.6A Pending CN113689083A (zh) 2021-07-29 2021-07-29 新能源车保险风险因子的处理方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN113689083A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107845039A (zh) * 2016-09-20 2018-03-27 得道车联网络科技(上海)有限公司 一种无尺度自适应的车联网车险评分模型
CN108460685A (zh) * 2017-02-22 2018-08-28 深圳市赛格车圣智联科技有限公司 用于挖掘车险风险因子之间的关联规则的方法和装置
CN108805727A (zh) * 2018-05-31 2018-11-13 北京京东金融科技控股有限公司 用于数据处理的方法及装置
CN112288334A (zh) * 2020-11-27 2021-01-29 上海评驾科技有限公司 一种基于lightgbm的车联网风险因子的提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107845039A (zh) * 2016-09-20 2018-03-27 得道车联网络科技(上海)有限公司 一种无尺度自适应的车联网车险评分模型
CN108460685A (zh) * 2017-02-22 2018-08-28 深圳市赛格车圣智联科技有限公司 用于挖掘车险风险因子之间的关联规则的方法和装置
CN108805727A (zh) * 2018-05-31 2018-11-13 北京京东金融科技控股有限公司 用于数据处理的方法及装置
CN112288334A (zh) * 2020-11-27 2021-01-29 上海评驾科技有限公司 一种基于lightgbm的车联网风险因子的提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘佳琪 等: "基于机器学习的多因子选股模型", 《时代金融》, pages 99 - 103 *
孟生旺等: "驾驶行为保险的风险预测模型研究", 《保险研究》, pages 21 - 34 *

Similar Documents

Publication Publication Date Title
CN108874959B (zh) 一种基于大数据技术的用户动态兴趣模型建立方法
CN109582875B (zh) 一种在线医疗教育资源的个性化推荐方法及系统
CN112053234B (zh) 基于宏观区域经济指数与微观因素的企业信用评级方法
CN111784040B (zh) 政策模拟分析的优化方法、装置及计算机设备
CN108133223B (zh) 确定卷积神经网络cnn模型的装置和方法
CN108681742B (zh) 用于分析司机驾驶行为对车辆能耗敏感性的分析方法
CN111382948A (zh) 对企业发展潜力进行量化评估的方法及装置
CN109711424A (zh) 一种基于决策树的行为规则获取方法、装置及设备
CN107368526A (zh) 一种数据处理方法及装置
CN112381644A (zh) 一种基于空间变量推理的信贷场景风险用户评估方法
CN114004691A (zh) 基于融合算法的额度评分方法、装置、设备及存储介质
CN112767038B (zh) 基于美学特征的海报ctr预测方法及装置
CN113077271A (zh) 一种基于bp神经网络的企业信用评级方法及装置
CN113435713A (zh) 基于gis技术和两模型融合的风险地图编制方法及系统
CN117132383A (zh) 一种信贷数据处理方法、装置、设备及可读存储介质
CN113689083A (zh) 新能源车保险风险因子的处理方法、装置及计算机设备
US11960499B2 (en) Sales data processing apparatus, method, and medium storing program for sales prediction
CN111415081A (zh) 企业数据处理方法及装置
WO2023061174A1 (zh) 一种孤独症谱系障碍的风险预测模型构建方法及装置
CN115169705A (zh) 配送时长预测方法、装置、存储介质及计算机设备
CN110852322A (zh) 感兴趣区域的确定方法及装置
CN115239947A (zh) 基于无监督学习的小麦条锈病严重度评估方法及装置
CN109978406A (zh) 一种证券下行风险评估诊断的方法及系统
CN109214598A (zh) 基于k-means和arima模型预测住宅小区抵押风险的批量评级方法
CN114298877A (zh) 一种基于社会治理的指数评价系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination