CN112950397A

CN112950397A - 理赔风险预估方法、装置、计算机设备和存储介质

Info

Publication number: CN112950397A
Application number: CN202110531604.9A
Authority: CN
Inventors: 刘小东
Original assignee: Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Current assignee: Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-06-11
Anticipated expiration: 2041-05-17
Also published as: CN112950397B

Abstract

本申请涉及计算机技术领域，特别是涉及一种理赔风险预估方法、装置、计算机设备和存储介质。所述方法包括：获取待处理理赔数据；对待处理理赔数据进行预处理，得到对应待处理理赔数据的特征数据；获取预先生成的总决策模型，总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的；根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标。采用本方法能够提升理赔风险预估的智能化水平。

Description

理赔风险预估方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种理赔风险预估方法、装置、计算机设备和存储介质。

背景技术

随着社会经济的不断发展，人们越来越意识到保险的重要性。例如车险，投保人根据合同约定，向保险人支付保险费，保险人对于合同约定的可能发生的风险所造成的损失承担赔偿保险金。因此，保险人对于保险业务的风险评估极为重要。

在传统方式，在进行保险理赔风险评估时，通常是定损员在日常工作中发现案件有欺诈风险后主动上报，然后走车险反欺诈流程，或者是抽取报表数据，根据经验规则进行筛选、过滤等纯人工方式识别理赔风险。

但是，上述方式主要依赖于人工触发进行理赔风险预估，使得理赔风险判定的过程不够智能化。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升理赔风险判定的智能化水平的理赔风险预估方法、装置、计算机设备和存储介质。

一种理赔风险预估方法，所述方法包括：

获取待处理理赔数据；

对待处理理赔数据进行预处理，得到对应待处理理赔数据的特征数据；

获取预先生成的总决策模型，总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的；

根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标。

在其中一个实施例中，总决策模型的生成方式，包括：

获取历史理赔数据，历史理赔数据包括多个数据维度；

从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并从历史理赔数据中确定对应各目标维度的目标分类数据；

根据各目标维度的各目标分类数据，确定对应各目标维度的不纯度指标；

基于各目标维度的不纯度指标以及历史理赔数据，构建初始决策树模型；

判断初始决策树模型的数量是否等于预设阈值数量；

当初始决策树模型的数量小于预设阈值数量时，则重新从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并继续构建初始决策树模型，直至初始决策树模型的数量等于预设阈值数量；

从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

在其中一个实施例中，根据各目标维度的各目标分类数据，确定对应各目标分类数据的不纯度指标，包括：

根据各目标维度的各目标分类数据中欺诈案件数据以及各目标分类数据的总案件数据，确定对应各目标分类数据的欺诈案件占比；

根据各目标分类数据的欺诈案件占比，确定对应各目标分类数据的不纯度指标。

在其中一个实施例中，基于各目标维度的不纯度指标以及历史理赔数据，构建初始决策树模型，包括：

根据各目标维度的不纯度指标，确定不纯度指标最高的目标维度为对历史理赔数据进行分割的分割维度；

获取分割维度的分割条件，根据分割条件对历史理赔数据进行分割处理，得到对应分割维度中多个分割条件的多个初始分割数据；

判断各初始分割数据是否符合分割终止条件；

当各初始分割数据不符合分割终止条件时，则分别确定对各初始分割数据进行分割的各分割维度，并基于各分割维度对应的分割条件继续对各初始分割数据进行分割处理，直至分割处理后的各初始分割数据符合分割终止条件，则得到对应历史理赔数据的分割数据，对各初始分割数据进行分割的各分割维度为从第一预设数量的目标维度中去除已进行分割处理对应的分割维度后剩余的目标维度中确定的；

根据各分割维度的确定顺序以及各分割维度的各分割条件，构建初始决策树模型。

在其中一个实施例中，判断各初始分割数据是否符合分割终止条件包括以下至少一项：

判断在得到初始分割数据之前，进行分割处理的分割次数是否大于或等于预设最小分割次数且小于或等于预设最大分割次数；

计算分割处理后得到的多个初始分割数据的各不纯度指标，并判断各不纯度指标之间的指标差是否大于或等于预设指标差阈值；

判断分割处理后得到的各初始分割数据中案件数量是否均大于或等于预设案件数量阈值。

在其中一个实施例中，确定初始决策树模型的数量等于预设阈值数量之后，还包括：

根据各初始决策树模型对应的各分割数据以及历史理赔数据，确定对应各初始决策树模型的准确率和召回率；

从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型，包括：

基于各初始决策树模型的准确率和召回率，确定各初始决策树模型的模型指标；

根据各初始决策树模型的模型指标，从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

在其中一个实施例中，根据各初始决策树模型对应的各分割数据以及历史理赔数据，确定对应各初始决策树模型的准确率和召回率，包括：

根据各分割数据的总案件数量以及历史理赔数据的总案件数量，确定各分割数据对应的案件占比；

根据各分割数据中欺诈案件数据的案件数量以及对应的分割数据的总案件数量，确定对应各分割数据的加权准确率；

基于各分割数据的加权准确率，对各分割数据进行排序，确定各分割数据的排序序列；

根据各排序序列以及各分割数据的案件占比，标注预设案件占比的分割数据为欺诈案件数据；

根据标注为欺诈案件数据的案件数量、历史理赔数据中欺诈案件数据的案件数量以及历史理赔数据中的总案件数量，确定对应初始决策树模型的准确率以及召回率；

遍历各初始决策树模型，确定各初始决策树模型的准确率和召回率。

在其中一个实施例中，获取历史理赔数据，包括：

获取初始历史理赔数据，初始历史理赔数据包括多个初始数据维度的数据；

根据初始历史理赔数据中欺诈案件数据的总欺诈案件数量以及各初始数据维度对应的欺诈案件数据的案件数量，确定初始历史理赔数据中各初始数据维度对应的欺诈案件占比；

根据初始历史理赔数据中各初始数据维度对应的案件数量以及初始历史理赔数据中的总案件数量，确定初始历史理赔数据中各初始数据维度对应的案件分类占比；

基于各案件分类占比以及欺诈案件占比，得到历史理赔数据中各初始数据维度对应的欺诈指标；

根据各初始数据维度对应的欺诈指标，对初始历史理赔数据中多个初始数据维度的数据进行合并，得到多个数据维度的历史理赔数据。

在其中一个实施例中，根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标之后，还包括：

判断理赔风险指标是否大于或等于预设指标阈值；

当理赔风险指标大于或等于预设指标阈值时，则触发建立风险调查任务，并发送风险调查任务至终端进行风险调查。

一种理赔风险预估装置，所述装置包括：

待处理理赔数据获取模块，用于获取待处理理赔数据；

预处理模块，用于对待处理理赔数据进行预处理，得到对应待处理理赔数据的特征数据；

模型获取模块，用于获取预先生成的总决策模型，总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的；

预估模块，用于根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。

上述理赔风险预估方法、装置、计算机设备和存储介质，通过获取待处理理赔数据，并对待处理理赔数据进行预处理，得到对应待处理理赔数据的特征数据，然后获取预先生成的总决策模型，该总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的，然后根据总决策模型对特征数据进行预估，生成对应所述特征数据的理赔风险指标。从而，对于每一个待处理理赔数据，均可以对其进行预处理，然后基于总决策模型进行理赔风险预估，而不用人工进行预估，可以提升理赔风险预估的智能化水平。并且，通过总决策模型对各待处理匹配数据进行预估，可以对每一个待处理匹配数据均进行理赔风险预估，可以提升理赔风险判定的覆盖率以及准确性，降低理赔风险。

附图说明

图1为一个实施例中理赔风险预估方法的应用场景图；

图2为一个实施例中理赔风险预估方法的流程示意图；

图3为一个实施例中对历史理赔数据进行分割的示意图；

图4为一个实施例中初始数据维度的欺诈指标的示意图；

图5为另一个实施例中理赔风险预估方法的流程示意图；

图6为一个实施例中理赔风险预估装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的理赔风险预估方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。具体地，终端102采集待处理理赔数据，然后发送给服务器104。服务器104获取到待处理理赔数据后，可以对待处理理赔数据进行预处理，得到对应待处理理赔数据的特征数据。进一步，服务器104可以获取预先生成的总决策模型，总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的，然后通过总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种理赔风险预估方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取待处理理赔数据。

其中，待处理理赔数据是指保险理赔过程中所需的各种数据，以车险为例，待处理理赔数据可以包括但不限于车险理赔处理过程各个不同环节的数据，如报案环节、查勘环节以及定损环节。

在本实施例中，各个环节的数据可以多维度的数据，例如，报案环节的数据可以包括但不限于换驾标记、距承保生效出险天数、出险时间、立案金额、报案延迟时间、报案与被保人关系、现场类型、是否含本车标的出险、是否含三者车出险、是否含本车司机出险、是否含车上人员出险、是否含三这人出险、是否含三者物出险、报警信息以及出险原因等多维度。查勘环节的数据可以包括但不限于查勘立案金额、驾驶员证件号以及查勘方式等，以及换驾标记、查勘类型、驾驶员性别、驾驶员年龄、是否有责以及出险原因等多维度。查勘环节的数据还可以包括保单数据以及历史理赔数据。其中保单数据可以包括但不限于车龄、使用用途、车种、过户车标记、转保标记、新车购置价、是否承保交强险、是否承保车损险、是否承保三者险、被保人类型以及批改信息等特征；历史理赔数据可以包括但不限于出险次数以及各次出险赔款金额等维度。定损环节的数据可以包括但不限于定损金额以及修理厂类别等维度。

具体地，用户可以通过终端采集车险理赔过程中各个环节的数据，并上传至服务器，以使得服务器在获取到待处理理赔数据后，进行后续的处理。

步骤S204，对待处理理赔数据进行预处理，得到对应待处理理赔数据的特征数据。

其中，特征数据是指对多维度的待处理理赔数据进行预处理后所得到的标准化的数据。

在本实施例中，终端上传的数据可以是指各个时间段各种不同金额以及不同原因的多维度数据，例如，凌晨1点的数据，中午12点的数据，或者理赔金额5000元，或者理赔金额1万元等。

在本实施例中，服务器在获取到待处理理赔数据后，可以将对待处理理赔数据进行预处理，例如可以对时间、理赔原因、理赔金额等进行对维度归类处理，以得到特征数据。

具体地，服务器对待处理理赔数据进行归类处理可以是基于计算得到的各个维度的欺诈指标进行的归类，具体将在后文进行详述，此处不过多说明。

在本实施例中，服务器得到各特征数据后，还可以对各特征数据进行独热编码处理，即将数据通过二进制向量的形式表现出来，比如，对于性别特征，共有3种类别(男、女、缺失)，以2个二进制来表现的话，对于男，我们可以表示为（1，0），对于女我们可以表示为（0，1），对于缺失值我们可以表示为（0，0）。

在本实例中，服务器可以遍历各特征数据，得到对应的二进制的形式的数据。通过独热编码处理可以将类别变量转化为机器学习算法易于利用的数据，方便后续数据处理，提升后续数据处理的效率。

步骤S206，获取预先生成的总决策模型，总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的。

其中，总决策模型是指用于预估待处理理赔数据的理赔风险指标的数据。在本实施例中，从决策树模型可以包括多个目标决策树模型，例如，可以是35个。

在本实施例中，服务器可以获取历史理赔数据，根据历史理赔数据生成多个初始决策树模型，以根据多个目标决策树模型生成总决策模型。

步骤S208，根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标。

其中，理赔风险指标可以是指具体的指标分值，如，70分，80分，也可以是指指标等级，例如，高、中、低等级。

在本实施例中，服务器可以将预处理后得到的特征数据输入总决策模型，通过总决策模型基于特征数据进行理赔风险指标的预估。

具体地，服务器可以将特征数据输入总决策模型，通过总决策模型中的多个目标决策树模型分别进行预估，以根据多个目标决策树模型得到最终的理赔风险指标。例如，服务器将特征数据输入35个目标决策树模型中，通过各目标决策树模型进行评估，输出0或者1。然后服务器统计评估结果为1的数量，以该数量作为所述特征数据的理赔风险指标。

上述理赔风险预估方法中，通过获取待处理理赔数据，并对待处理理赔数据进行预处理，得到对应待处理理赔数据的特征数据，然后获取预先生成的总决策模型，该总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的，然后根据总决策模型对特征数据进行预估，生成对应所述特征数据的理赔风险指标。从而，对于每一个待处理理赔数据，均可以对其进行预处理，然后基于总决策模型进行理赔风险预估，而不用人工进行预估，可以提升理赔风险预估的智能化水平。并且，通过总决策模型对各待处理匹配数据进行预估，可以对每一个待处理匹配数据均进行理赔风险预估，可以提升理赔风险判定的覆盖率以及准确性，降低理赔风险。

在其中一个实施例中，总决策模型的生成方式，可以包括：获取历史理赔数据，历史理赔数据包括多个数据维度；从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并从历史理赔数据中确定对应各目标维度的目标分类数据；根据各目标维度的各目标分类数据，确定对应各目标维度的不纯度指标；基于各目标维度的不纯度指标以及历史理赔数据，构建初始决策树模型；判断初始决策树模型的数量是否等于预设阈值数量；当初始决策树模型的数量小于预设阈值数量时，则重新从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并继续构建初始决策树模型，直至初始决策树模型的数量等于预设阈值数量；从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

其中，历史理赔数据是指在过去时间段中已经理赔的数据，具体数据内容以及数据维度可以参照前文所述，此处不再赘述。

在本实施例中，服务器可以根据各个数据维度对应的分割条件对历史理赔数据进行分类，例如，按照时间维度将历史理赔数据划分为0点到8点的数据、8点到12点的数据，12点到19点的数据，以及19点到0点的数据；或者，服务器可以也可以按照理赔金额维度，将历史理赔数据划分为理赔金额大于或等于1万的数据，以及小于1万的数据。以此类推，服务器可以根据各数据维度对历史理赔数据进行划分，以得到对应各数据维度的分类数据。

在本实施例中，服务器可以随机确定历史理赔数据对应的多个数据维度中第一预设数量的数据维度作为目标维度，并获取对应目标维度的分类数据，即获取目标分类数据。

在本实施例中，服务器可以根据各目标维度对应的目标分类数据，确定对应各目标维度的不纯度指标。

在本实施例中，不纯度指标可以是gini系数，服务器可以通过以下公式（1）进行不纯度指标的计算。

（1）

其中，k表示历史理赔数据中数据维度的数量，表示各数据维度对应的数据占历史理赔数据的比例。

在本实施例中，服务器遍历计算各数据维度对应的数据，生成对应各数据维度的不纯度指标。

进一步，服务器基于各目标维度的不纯度指标，根据各个目标维度，对历史理赔数据进行切分，然后基于切分的各目标维度以及切分顺序，生成对应的初始决策树模型。

在本实施例中，服务器在构建得到初始决策树模型后，可以对已经构建得到的初始决策树模型的数量进行统计，并进行判断，判断是否等于预设阈值数量。

在本实施例中，当服务器确定初始决策树模型的数量小于预设阈值数量时，则可以重新从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并继续构建初始决策树模型，直至初始决策树模型的数量等于预设阈值数量。

进一步，当服务器确定初始决策树模型的数量等于预设阈值数量时，则停止继续进行初始决策树模型的构建，并从已经构建的初始决策树模型中选取第二预设数量的初始决策树模型作为目标决策树模型，并基于选取的目标决策树模型构建生成总决策树模型。

具体地，服务器可以通过计算各个初始决策树模型的准确率以及召回率，并根据计算得到的准确率以及召回率从所述预设阈值数量的初始决策树模型中选取第二预设数量的目标决策树模型。

上述实施例中，通过计算目标维度的不纯度指标，并基于不纯度指标以及历史理赔数据构建初始决策树模型，然后在从构建的预设阈值数量的初始决策树模型中选取第二预设数量的目标决策树模型构建总决策树模型，可以提升构建的总决策模型的准确性。

在其中一个实施例中，获取历史理赔数据，可以包括：获取初始历史理赔数据，初始历史理赔数据包括多个初始数据维度的数据；根据初始历史理赔数据中欺诈案件数据的总欺诈案件数量以及各初始数据维度对应的欺诈案件数据的案件数量，确定初始历史理赔数据中各初始数据维度对应的欺诈案件占比；根据初始历史理赔数据中各初始数据维度对应的案件数量以及初始历史理赔数据中的总案件数量，确定初始历史理赔数据中各初始数据维度对应的案件分类占比；基于各案件分类占比以及欺诈案件占比，得到历史理赔数据中各初始数据维度对应的欺诈指标；根据各初始数据维度对应的欺诈指标，对初始历史理赔数据中多个初始数据维度的数据进行合并，得到多个数据维度的历史理赔数据。

在本实施例中，对于初始历史理赔数据中的各数据，其取值可以分为若干种，即可以包括多个初始数据维度，例如，参考图4，以出险时间为例，可以是0小时、1小时…23小时等。

在本实施例中，服务器可以根据初始历史理赔数据中欺诈案件数据的总欺诈案件数量以及各初始数据维度对应的欺诈案件数据的案件数量，确定初始历史理赔数据中各初始数据维度对应的欺诈案件占比Q1。其中Q1=f/F，f为各初始数据维度对应的欺诈案件数据的案件数量，F为初始历史理赔数据中欺诈案件数据的总欺诈案件数量。

进一步，服务器可以根据初始历史理赔数据中各初始数据维度对应的案件数量以及初始历史理赔数据中的总案件数量，确定初始历史理赔数据中各初始数据维度对应的案件分类占比Q2。其中，Q2=n/N，n为初始历史理赔数据中各初始数据维度对应的案件数量，N为初始历史理赔数据中的总案件数量。

进一步，服务器基于各案件分类占比以及欺诈案件占比，得到历史理赔数据中各初始数据维度对应的欺诈指标S，即S=Q1/Q2。

在本实施例中，服务器可以根据各初始数据维度对应的欺诈指标，对初始历史理赔数据中多个初始数据维度的数据进行合并，得到多个数据维度的历史理赔数据。

例如，继续以出险小时为例，对于0小时的数据，其对应的欺诈指标5.93，对于1小时的数据，其对应的欺诈指标7.97，对于2小时的数据，其对应的欺诈指标9.31…服务器可以设置欺诈指标阈值，以对该多个初始数据维度的数据进行合并处理，如，欺诈指标阈值为6，则可以将欺诈指标小于等于6对应的初始数据维度的数据进行合并，将欺诈指标大于6对应的初始数据维度的数据进行合并。

在本实施例中，服务器也可以设置多个欺诈指标阈值，例如，第一欺诈指标阈值为3，第二欺诈指标阈值为6，则服务器可以将欺诈指标小于等于3对应的初始数据维度的数据进行合并，将欺诈指标大于3且小于等于6对应的初始数据维度的数据进行合并，将欺诈指标大于6对应的初始数据维度的数据进行合并。

在本实施例中，服务器遍历各初始数据维度，例如，理赔金额，性别，年龄等进行欺诈指标的计算，并进行合并处理，以得到对应的历史理赔数据。

上述实施例中，通过计算欺诈指标，并对初始历史理赔数据进行合并预处理，可以使得后续进行处理的数据包含分类数量较少，减少后续数据处理的数据量，提升数据处理效率。

在其中一个实施例中，根据各目标维度的各目标分类数据，确定对应各目标分类数据的不纯度指标，可以包括：根据各目标维度的各目标分类数据中欺诈案件数据以及各目标分类数据的总案件数据，确定对应各目标分类数据的欺诈案件占比；根据各目标分类数据的欺诈案件占比，确定对应各目标分类数据的不纯度指标。

其中，历史理赔数据各数据为真理赔案件数据或者是欺诈案件数据可以基于数据表示确定。

在本实施例中，服务器在得到各目标维度对应的各目标分类数据后，可以根据各目标分类数据中欺诈案件数据以及各目标分类数据的总案件数据，确定对应各目标分类数据的欺诈案件占比，然后各目标分类数据的欺诈案件占比，确定对应各目标分类数据的不纯度指标。具体地，可以通过对上述公式（1）展开后得到的公式（2）计算不纯度指标。

G=1-p*p-(1-p)* (1-p) （2）

其中，P为目标分类中欺诈案件数据的占比。

在其中一个实施例中，基于各目标维度的不纯度指标以及历史理赔数据，构建初始决策树模型，可以包括：根据各目标维度的不纯度指标，确定不纯度指标最高的目标维度为对历史理赔数据进行分割的分割维度；获取分割维度的分割条件，根据分割条件对历史理赔数据进行分割处理，得到对应分割维度中多个分割条件的多个初始分割数据；判断各初始分割数据是否符合分割终止条件；当各初始分割数据不符合分割终止条件时，则分别确定对各初始分割数据进行分割的各分割维度，并基于各分割维度对应的分割条件继续对各初始分割数据进行分割处理，直至分割处理后的各初始分割数据符合分割终止条件，则得到对应历史理赔数据的分割数据，对各初始分割数据进行分割的各分割维度为从第一预设数量的目标维度中去除已进行分割处理对应的分割维度后剩余的目标维度中确定的；根据各分割维度的确定顺序以及各分割维度的各分割条件，构建初始决策树模型。

具体地，服务器根据各个目标维度的不纯度指标，确定不纯度指标最高的目标维度为对历史理赔数据进行分割的分割维度，即确定初始决策树模型的决策点。

进一步，服务器获取各分割维度的分割条件，根据分割条件对历史理赔数据进行分割处理，得到对应分割维度中多个分割条件的多个初始分割数据。例如，参考图3，当分割维度为性别的时候，男/女则分别对应于性别分割维度的分割条件，则服务器可以将历史理赔数据按照男/女分割为两个初始分割数据。

进一步，服务器基于分割后的各初始分割数据，判断各初始分割数据是否符合分割终止条件。

其中，初始分割条件为停止继续分割的条件，即初始决策树模型停止继续进行决策判断的条件。例如，模型的最小决策点数量、最大决策点数量以及在切割后得到的各个初始分割数据中的最少数据数量等。

在本实施例中，当服务器确定各初始分割数据不符合分割终止条件时，则分别确定对各初始分割数据进行分割的各分割维度，并基于各分割维度对应的分割条件继续对各初始分割数据进行分割处理，直至分割处理后的各初始分割数据符合分割终止条件，则得到对应历史理赔数据的分割数据。

其中，对各初始分割数据进行分割的各分割维度为从第一预设数量的目标维度中去除已进行分割处理对应的分割维度后剩余的目标维度中确定的。例如，第一预设数量的目标维度包括：性别、年龄、理赔金额、出险时间等，当服务器确定进行第一次分割的分割维度为性别后，则对各初始分割数据进行分割的分割维度则从剩余的目标维度，即年龄、理赔金额、出险时间中确定。

在本实施例中，对于同一分割维度得到的多个初始分割数据，其对应的分割维度不同，例如，对于按照性别进行分割后得到的2个初始分割数据，对应性别“男”维度的初始分割数据，服务器确定的其对应的分割维度可以是年龄，而对应性别“女”维度的初始分割数据，服务器确定的其对应的分割维度可以是出险时间，本申请对此不作限定。本领域技术人员可以理解的是，在其他实施例中，各初始分割数据对应的分割维度也可以相等，本申请对此不作限定。

在本实施例中，服务器可以根据各初始分割数据中各剩余目标维度对应的数据，确定各目标维度对应的不纯度指标，并基于不纯度指标确定对各初始分割数据进行分割的各分割维度。例如，继续延用前例，服务器根据性别将历史理赔数据进行分割后，对于“男”维度对应的初始分割数据，服务器可以分别计算该初始分割数据中年龄、理赔金额、出险时间等各目标维度对应的不纯度指标，然后选取不纯度指标最高的目标维度为对“男”维度对应的初始分割数据进行分割处理的分割维度。同理，确定对“女”维度对应的初始分割数据进行分割处理的分割维度。

在本实施例中，可以根据各分割维度的确定顺序以及各分割维度的各分割条件，构建初始决策树模型。

上述实施例中，通过根据各目标维度的不纯度指标，确定对历史理赔数据进行分割的分割维度，然后进行分割并进行判断，并根据各分割维度的确定顺序以及各分割维度的各分割条件，构建初始决策树模型，可以使得构建的初始决策树模型更符合实际应用要求，提升构建的初始决策树模型的识别能力。

在其中一个实施例中，判断各初始分割数据是否符合分割终止条件可以包括以下至少一项：判断在得到初始分割数据之前，进行分割处理的分割次数是否大于或等于预设最小分割次数且小于或等于预设最大分割次数；计算分割处理后得到的多个初始分割数据的各不纯度指标，并判断各不纯度指标之间的指标差是否大于或等于预设指标差阈值；判断分割处理后得到的各初始分割数据中案件数量是否均大于或等于预设案件数量阈值。

在本实施例中，服务器在每一次分割处理后，均可以对各初始分割数据进行最小分割次数spilt_min以及最大分割次数spilt_max判定，当服务器确定分割次数大于或等于最大分割次数时，则停止进行分割。

进一步，为了避免决策树构建的不平衡，服务器在得到各初始分割数据后，均可以计算各初始分割数据的不纯度指标，判断各初始分割数据的不纯度指标之间的指标差是否大于或等于预设指标差阈值。

具体地，当服务器确定指标差大于或等于预设指标差阈值时，则停止继续进行分割，当指标差小于预设指标差阈值时，则继续分割。

进一步，为了避免过度拟合，服务器还可以根据预先确定的预设案件数量阈值对各初始分割数据中案件数量进行判定，当服务器判定初始分割数据中案件数量小于预设案件数量阈值时，则停止进行分割。

上述实施例中，通过多个或者单个分割终止条件对初始分割数据进行判定，可以避免初始决策树模型过度拟合或者是分割不平衡，提升初始决策树模型的识别能力。

在其中一个实施例中，确定初始决策树模型的数量等于预设阈值数量之后，还可以包括：根据各初始决策树模型对应的各分割数据以及历史理赔数据，确定对应各初始决策树模型的准确率和召回率。

其中，准确率是指初始决策树模型的输出准确率，召回率是指初始决策树模型对欺诈案件数据的召回率。

在本实施例中，服务器在构建得到各初始决策树模型后，可以根据各初始决策树模型对应的分割数据及其对应的历史理赔数据，确定对应各初始决策树模型的准确率和召回率。

在本实施例中，从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型，可以包括：基于各初始决策树模型的准确率和召回率，确定各初始决策树模型的模型指标；根据各初始决策树模型的模型指标，从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

在本实施例中，服务器在根据各初始决策树模型对应的各分割数据以及历史理赔数据，确定对应各初始决策树模型的准确率和召回率后，可以根据各初始决策树模型对应的准确率以及召回率，确定各初始决策树模型的模型指标。具体地，可以通过如下公式（3）进行计算：

T=0.8*f₁+0.2*f₂ （3）

其中，T为模型指标，f₁为准确率，f₂为召回率。

进一步，服务器可以根据各初始决策树模型的模型指标，从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

具体地，服务器可以确定模型指标T最高的初始决策树模型为第一个目标决策树模型。

进一步，服务器可以根据确定的第一个目标决策树模型，从剩余的多个初始决策树模型中确定第二个目标决策树模型。

具体地，剩余的多个初始决策树模型中，每个初始决策树模型的预测结果与第一个目标决策树模型的预测结果组合起来共有四种情况（白,白）、（白,黑）、（黑,白）、（黑,黑）。其中，黑表示欺诈数据，白表示非欺诈数据。

在本实施例中，服务器可以根据预测结果中包含黑的数量确定各个预测结果的得分，即可以分别得到0分、1分、1分、2分，即将上述预测结果分为三类。

进一步，服务器可以设定选取条件，将选取条件确定的预测结果所对应的准确率以及召回率最为剩余的对应初始决策树模型的准确率以及召回率，并代入上述公式（3）中，以得到对应各剩余的初始决策树模型的模型指标。

具体地，服务器可以确定大于等于（i/K+1）的整数值对应分数的预测结果的准确率以及召回率为对应初始决策树模型的准确率以及召回率。其中，i为初始决策树模型的数量，K为经验值，可以为3。

进一步，服务器根据剩余的各初始决策树模型的模型指标，选取模型指标值最大的一个初始决策树模型为第二个目标决策树模型。

以此类推，服务器可以根据确定的第一个目标决策树模型、第二个目标决策树模型，从剩余的初始决策树模型中确定剩余的各目标决策树模型，直至目标决策树模型的数量等于第二预设数量。

进一步，服务器基于确定的第二预设数量生成总决策模型。

在其中一个实施例中，根据各初始决策树模型对应的各分割数据以及历史理赔数据，确定对应各初始决策树模型的准确率和召回率，可以包括：根据各分割数据的总案件数量以及历史理赔数据的总案件数量，确定各分割数据对应的案件占比；根据各分割数据中欺诈案件数据的案件数量以及对应的分割数据的总案件数量，确定对应各分割数据的加权准确率；基于各分割数据的加权准确率，对各分割数据进行排序，确定各分割数据的排序序列；根据各排序序列以及各分割数据的案件占比，标注预设案件占比的分割数据为欺诈案件数据；根据标注为欺诈案件数据的案件数量、历史理赔数据中欺诈案件数据的案件数量以及历史理赔数据中的总案件数量，确定对应初始决策树模型的准确率以及召回率；遍历各初始决策树模型，确定各初始决策树模型的准确率和召回率。

具体地，服务器根据初始决策树模型对应的各分割数据的总案件数量以及历史理赔数据的总案件数量，确定各分割数据对应的案件占比。例如，分割数据的总案件数量为100，历史理赔数据的总案件数量为1000，则可以确定案件占比为10%。进一步，服务器根据各分割数据中欺诈案件数据的案件数量以及对应的分割数据的总案件数量，确定对应各分割数据的加权准确率。继续延用前例，分割数据的总案件数量为100，其中欺诈案件数据的案件数量为5，则分割数据的加权准确率为5%。

进一步，服务器根据各分割数据的加权准确率，对多个分割数据进行排序，确定各分割数据的排序序列。

进一步，根据各排序序列以及各分割数据的案件占比，标注预设案件占比的分割数据为欺诈案件数据。具体地，服务器设定一个阈值K，服务器根据排序序列以及分割数据的案件占比，选取分割数据，并标注为欺诈案件数据。例如，对于分割数据A，其案件占比为10%，排序序列为第一位，对于分割数据B，其案件占比为5%，排序序列为第二位，对于分割数据C，其案件占比为30%，排序序列为第三位，对于分割数据D，其案件占比为20%，排序序列为第四位。当K小于或等于10时，则服务器标注分割数据A为欺诈案件数据，当K大于10，小于或等于15时，则服务器标注分割数据A和分割数据B为欺诈案件数据，当当K大于15，小于或等于45时，则服务器标注分割数据A、分割数据B以及分割数据C为欺诈案件数据，以此类推。

进一步，服务器根据标注为欺诈案件数据的案件数量、历史理赔数据中欺诈案件数据的案件数量以及历史理赔数据中的总案件数量，确定对应初始决策树模型的准确率以及召回率。

具体地，服务器可以根据标注为欺诈案件数据的案件数量以及历史理赔数据中欺诈案件数据的案件数量，确定标注为欺诈案件数据中真实欺诈案件的数量，并基于标注为欺诈案件数据中真实欺诈案件的数量以及历史理赔数据中的总案件数量，确定初始决策树模型的准确率。

进一步，服务器可以根据标注为欺诈案件数据中真实欺诈案件的数量以及历史理赔数据中欺诈案件数据的案件数量，确定初始决策树模型的召回率。

在本实施例中，服务器遍历各初始决策树模型，以得到各初始决策树模型的准确率以及召回率。

在其中一个实施例中，根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标之后，还可以包括：判断理赔风险指标是否大于或等于预设指标阈值；当理赔风险指标大于或等于预设指标阈值时，则触发建立风险调查任务，并发送风险调查任务至终端进行风险调查。

在本实施例中，服务器在得到待处理理赔数据对应的特征数据的理赔风险指标后，可以对该理赔风险指标与预设指标阈值进行比较判定。参考图5，当理赔风险指标大于或等于预设指标阈值时，则服务器自动触发建立风险调查任务，发送风险调查任务至终端进行风险调查。当理赔风险指标小于预设指标阈值时，则不触发风险调查任务的创建。

例如，预设指标阈值为13，当服务器基于总决策模型得到的理赔风险指标大于或等于13时，则动触发建立风险调查任务，当理赔风险指标小于13时，则不触发风险调查任务的创建。

上述实施例中，通过将生成的理赔风险指标与预设指标阈值进行比较，并在理赔风险指标大于或等于预设指标阈值时，则触发建立风险调查任务，并发送风险调查任务至终端进行风险调查，可以不用人为触发建立风险调查任务，提升数据处理的智能化水平。并且，服务器可以对每一待处理理赔数据的理赔风险指标均进行判定，提升理赔风险判定的覆盖率，降低理赔风险。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种理赔风险预估装置，包括：待处理理赔数据获取模块100、预处理模块200、模型获取模块300和预估模块400，其中：

待处理理赔数据获取模块100，用于获取待处理理赔数据。

预处理模块200，用于对待处理理赔数据进行预处理，得到对应待处理理赔数据的特征数据。

模型获取模块300，用于获取预先生成的总决策模型，总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的。

预估模块400，用于根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标。

在其中一个实施例中，上述装置还可以包括：

总决策模型生成模块，用于生成总决策模型。

在本实施例中，总决策模型生成模块可以包括：

历史理赔数据获取子模块，用于获取历史理赔数据，历史理赔数据包括多个数据维度。

目标维度确定子模块，用于从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并从历史理赔数据中确定对应各目标维度的目标分类数据。

不纯度指标确定子模块，用于根据各目标维度的各目标分类数据，确定对应各目标维度的不纯度指标。

初始决策树模型构建子模块，用于基于各目标维度的不纯度指标以及历史理赔数据，构建初始决策树模型。

判断子模块，用于判断初始决策树模型的数量是否等于预设阈值数量；

循环构建子模块，用于当初始决策树模型的数量小于预设阈值数量时，则重新从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并继续构建初始决策树模型，直至初始决策树模型的数量等于预设阈值数量。

总决策模型生成子模块，用于从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

在其中一个实施例中，不纯度指标确定子模块可以包括：

欺诈案件占比确定单元，用于根据各目标维度的各目标分类数据中欺诈案件数据以及各目标分类数据的总案件数据，确定对应各目标分类数据的欺诈案件占比。

不纯度指标确定单元，用于根据各目标分类数据的欺诈案件占比，确定对应各目标分类数据的不纯度指标。

在其中一个实施例中，初始决策树模型构建子模块可以包括：

分割维度确定单元，用于根据各目标维度的不纯度指标，确定不纯度指标最高的目标维度为对历史理赔数据进行分割的分割维度。

分割处理单元，用于获取分割维度的分割条件，根据分割条件对历史理赔数据进行分割处理，得到对应分割维度中多个分割条件的多个初始分割数据。

判断单元，用于判断各初始分割数据是否符合分割终止条件。

循环分割单元，用于当各初始分割数据不符合分割终止条件时，则分别确定对各初始分割数据进行分割的各分割维度，并基于各分割维度对应的分割条件继续对各初始分割数据进行分割处理，直至分割处理后的各初始分割数据符合分割终止条件，则得到对应历史理赔数据的分割数据，对各初始分割数据进行分割的各分割维度为从第一预设数量的目标维度中去除已进行分割处理对应的分割维度后剩余的目标维度中确定的。

初始决策树模型构建单元，用于根据各分割维度的确定顺序以及各分割维度的各分割条件，构建初始决策树模型。

在其中一个实施例中，判断子模块可以包括以下至少一个单元：

分割次数判断单元，用于判断在得到初始分割数据之前，进行分割处理的分割次数是否大于或等于预设最小分割次数且小于或等于预设最大分割次数。

指标差判断单元，用于计算分割处理后得到的多个初始分割数据的各不纯度指标，并判断各不纯度指标之间的指标差是否大于或等于预设指标差阈值。

案件数量判断单元，用于判断分割处理后得到的各初始分割数据中案件数量是否均大于或等于预设案件数量阈值。

在其中一个实施例中，上述装置还可以包括：

准确率和召回率确定模块，用于在循环构建子模块确定初始决策树模型的数量等于预设阈值数量之后，根据各初始决策树模型对应的各分割数据以及历史理赔数据，确定对应各初始决策树模型的准确率和召回率。

在本实施例中，总决策模型生成子模块可以包括：

模型指标确定单元，用于基于各初始决策树模型的准确率和召回率，确定各初始决策树模型的模型指标。

总决策模型生成单元，用于根据各初始决策树模型的模型指标，从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

在其中一个实施例中，准确率和召回率确定模块可以包括：

分割数据案件占比确定子模块，用于根据各分割数据的总案件数量以及历史理赔数据的总案件数量，确定各分割数据对应的案件占比。

加权准确率确定子模块，用于根据各分割数据中欺诈案件数据的案件数量以及对应的分割数据的总案件数量，确定对应各分割数据的加权准确率。

排序子模块，用于基于各分割数据的加权准确率，对各分割数据进行排序，确定各分割数据的排序序列。

标注子模块，用于根据各排序序列以及各分割数据的案件占比，标注预设案件占比的分割数据为欺诈案件数据。

模型准确率和召回率确定子模块，用于根据标注为欺诈案件数据的案件数量、历史理赔数据中欺诈案件数据的案件数量以及历史理赔数据中的总案件数量，确定对应初始决策树模型的准确率以及召回率；遍历各初始决策树模型，确定各初始决策树模型的准确率和召回率。

在其中一个实施例中，历史理赔数据获取子模块可以包括：

初始历史理赔数据获取单元，用于获取初始历史理赔数据，初始历史理赔数据包括多个初始数据维度的数据。

欺诈案件占比确定单元，用于根据初始历史理赔数据中欺诈案件数据的总欺诈案件数量以及各初始数据维度对应的欺诈案件数据的案件数量，确定初始历史理赔数据中各初始数据维度对应的欺诈案件占比。

案件分类占比确定单元，用于根据初始历史理赔数据中各初始数据维度对应的案件数量以及初始历史理赔数据中的总案件数量，确定初始历史理赔数据中各初始数据维度对应的案件分类占比。

欺诈指标确定单元，用于基于各案件分类占比以及欺诈案件占比，得到历史理赔数据中各初始数据维度对应的欺诈指标。

合并处理单元，用于根据各初始数据维度对应的欺诈指标，对初始历史理赔数据中多个初始数据维度的数据进行合并，得到多个数据维度的历史理赔数据。

在其中一个实施例中，上述装置还可以包括：

理赔风险指标判断模块，用于在预估模块400根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标之后，判断理赔风险指标是否大于或等于预设指标阈值。

触发模块，用于当理赔风险指标大于或等于预设指标阈值时，则触发建立风险调查任务，并发送风险调查任务至终端进行风险调查。

关于理赔风险预估装置的具体限定可以参见上文中对于理赔风险预估方法的限定，在此不再赘述。上述理赔风险预估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理理赔数据、特征数据、理赔风险指标等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种理赔风险预估方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待处理理赔数据；对待处理理赔数据进行预处理，得到对应待处理理赔数据的特征数据；获取预先生成的总决策模型，总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的；根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标。

在其中一个实施例中，处理器执行计算机程序时实现总决策模型的生成方式，可以包括：获取历史理赔数据，历史理赔数据包括多个数据维度；从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并从历史理赔数据中确定对应各目标维度的目标分类数据；根据各目标维度的各目标分类数据，确定对应各目标维度的不纯度指标；基于各目标维度的不纯度指标以及历史理赔数据，构建初始决策树模型；判断初始决策树模型的数量是否等于预设阈值数量；当初始决策树模型的数量小于预设阈值数量时，则重新从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并继续构建初始决策树模型，直至初始决策树模型的数量等于预设阈值数量；从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

在其中一个实施例中，处理器执行计算机程序时实现根据各目标维度的各目标分类数据，确定对应各目标分类数据的不纯度指标，可以包括：根据各目标维度的各目标分类数据中欺诈案件数据以及各目标分类数据的总案件数据，确定对应各目标分类数据的欺诈案件占比；根据各目标分类数据的欺诈案件占比，确定对应各目标分类数据的不纯度指标。

在其中一个实施例中，处理器执行计算机程序时实现基于各目标维度的不纯度指标以及历史理赔数据，构建初始决策树模型，可以包括：根据各目标维度的不纯度指标，确定不纯度指标最高的目标维度为对历史理赔数据进行分割的分割维度；获取分割维度的分割条件，根据分割条件对历史理赔数据进行分割处理，得到对应分割维度中多个分割条件的多个初始分割数据；判断各初始分割数据是否符合分割终止条件；当各初始分割数据不符合分割终止条件时，则分别确定对各初始分割数据进行分割的各分割维度，并基于各分割维度对应的分割条件继续对各初始分割数据进行分割处理，直至分割处理后的各初始分割数据符合分割终止条件，则得到对应历史理赔数据的分割数据，对各初始分割数据进行分割的各分割维度为从第一预设数量的目标维度中去除已进行分割处理对应的分割维度后剩余的目标维度中确定的；根据各分割维度的确定顺序以及各分割维度的各分割条件，构建初始决策树模型。

在其中一个实施例中，处理器执行计算机程序时实现判断各初始分割数据是否符合分割终止条件可以包括以下至少一项：判断在得到初始分割数据之前，进行分割处理的分割次数是否大于或等于预设最小分割次数且小于或等于预设最大分割次数；计算分割处理后得到的多个初始分割数据的各不纯度指标，并判断各不纯度指标之间的指标差是否大于或等于预设指标差阈值；判断分割处理后得到的各初始分割数据中案件数量是否均大于或等于预设案件数量阈值。

在其中一个实施例中，处理器执行计算机程序时实现确定初始决策树模型的数量等于预设阈值数量之后，还可以实现以下步骤：根据各初始决策树模型对应的各分割数据以及历史理赔数据，确定对应各初始决策树模型的准确率和召回率。

在本实施例中，处理器执行计算机程序时实现从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型，可以包括：基于各初始决策树模型的准确率和召回率，确定各初始决策树模型的模型指标；根据各初始决策树模型的模型指标，从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

在其中一个实施例中，处理器执行计算机程序时实现根据各初始决策树模型对应的各分割数据以及历史理赔数据，确定对应各初始决策树模型的准确率和召回率，可以包括：根据各分割数据的总案件数量以及历史理赔数据的总案件数量，确定各分割数据对应的案件占比；根据各分割数据中欺诈案件数据的案件数量以及对应的分割数据的总案件数量，确定对应各分割数据的加权准确率；基于各分割数据的加权准确率，对各分割数据进行排序，确定各分割数据的排序序列；根据各排序序列以及各分割数据的案件占比，标注预设案件占比的分割数据为欺诈案件数据；根据标注为欺诈案件数据的案件数量、历史理赔数据中欺诈案件数据的案件数量以及历史理赔数据中的总案件数量，确定对应初始决策树模型的准确率以及召回率；遍历各初始决策树模型，确定各初始决策树模型的准确率和召回率。

在其中一个实施例中，处理器执行计算机程序时实现获取历史理赔数据，可以包括：获取初始历史理赔数据，初始历史理赔数据包括多个初始数据维度的数据；根据初始历史理赔数据中欺诈案件数据的总欺诈案件数量以及各初始数据维度对应的欺诈案件数据的案件数量，确定初始历史理赔数据中各初始数据维度对应的欺诈案件占比；根据初始历史理赔数据中各初始数据维度对应的案件数量以及初始历史理赔数据中的总案件数量，确定初始历史理赔数据中各初始数据维度对应的案件分类占比；基于各案件分类占比以及欺诈案件占比，得到历史理赔数据中各初始数据维度对应的欺诈指标；根据各初始数据维度对应的欺诈指标，对初始历史理赔数据中多个初始数据维度的数据进行合并，得到多个数据维度的历史理赔数据。

在其中一个实施例中，处理器执行计算机程序时实现根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标之后，还可以实现以下步骤：判断理赔风险指标是否大于或等于预设指标阈值；当理赔风险指标大于或等于预设指标阈值时，则触发建立风险调查任务，并发送风险调查任务至终端进行风险调查。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待处理理赔数据；对待处理理赔数据进行预处理，得到对应待处理理赔数据的特征数据；获取预先生成的总决策模型，总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的；根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标。

在其中一个实施例中，计算机程序被处理器执行时实现总决策模型的生成方式，可以包括：获取历史理赔数据，历史理赔数据包括多个数据维度；从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并从历史理赔数据中确定对应各目标维度的目标分类数据；根据各目标维度的各目标分类数据，确定对应各目标维度的不纯度指标；基于各目标维度的不纯度指标以及历史理赔数据，构建初始决策树模型；判断初始决策树模型的数量是否等于预设阈值数量；当初始决策树模型的数量小于预设阈值数量时，则重新从多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并继续构建初始决策树模型，直至初始决策树模型的数量等于预设阈值数量；从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

在其中一个实施例中，计算机程序被处理器执行时实现根据各目标维度的各目标分类数据，确定对应各目标分类数据的不纯度指标，可以包括：根据各目标维度的各目标分类数据中欺诈案件数据以及各目标分类数据的总案件数据，确定对应各目标分类数据的欺诈案件占比；根据各目标分类数据的欺诈案件占比，确定对应各目标分类数据的不纯度指标。

在其中一个实施例中，计算机程序被处理器执行时实现基于各目标维度的不纯度指标以及历史理赔数据，构建初始决策树模型，可以包括：根据各目标维度的不纯度指标，确定不纯度指标最高的目标维度为对历史理赔数据进行分割的分割维度；获取分割维度的分割条件，根据分割条件对历史理赔数据进行分割处理，得到对应分割维度中多个分割条件的多个初始分割数据；判断各初始分割数据是否符合分割终止条件；当各初始分割数据不符合分割终止条件时，则分别确定对各初始分割数据进行分割的各分割维度，并基于各分割维度对应的分割条件继续对各初始分割数据进行分割处理，直至分割处理后的各初始分割数据符合分割终止条件，则得到对应历史理赔数据的分割数据，对各初始分割数据进行分割的各分割维度为从第一预设数量的目标维度中去除已进行分割处理对应的分割维度后剩余的目标维度中确定的；根据各分割维度的确定顺序以及各分割维度的各分割条件，构建初始决策树模型。

在其中一个实施例中，计算机程序被处理器执行时实现判断各初始分割数据是否符合分割终止条件可以包括以下至少一项：判断在得到初始分割数据之前，进行分割处理的分割次数是否大于或等于预设最小分割次数且小于或等于预设最大分割次数；计算分割处理后得到的多个初始分割数据的各不纯度指标，并判断各不纯度指标之间的指标差是否大于或等于预设指标差阈值；判断分割处理后得到的各初始分割数据中案件数量是否均大于或等于预设案件数量阈值。

在其中一个实施例中，计算机程序被处理器执行时实现确定初始决策树模型的数量等于预设阈值数量之后，还可以实现以下步骤：根据各初始决策树模型对应的各分割数据以及历史理赔数据，确定对应各初始决策树模型的准确率和召回率。

在本实施例中，计算机程序被处理器执行时实现从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型，可以包括：基于各初始决策树模型的准确率和召回率，确定各初始决策树模型的模型指标；根据各初始决策树模型的模型指标，从预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于第二预设数量的目标决策树模型，生成总决策模型。

在其中一个实施例中，计算机程序被处理器执行时实现根据各初始决策树模型对应的各分割数据以及历史理赔数据，确定对应各初始决策树模型的准确率和召回率，可以包括：根据各分割数据的总案件数量以及历史理赔数据的总案件数量，确定各分割数据对应的案件占比；根据各分割数据中欺诈案件数据的案件数量以及对应的分割数据的总案件数量，确定对应各分割数据的加权准确率；基于各分割数据的加权准确率，对各分割数据进行排序，确定各分割数据的排序序列；根据各排序序列以及各分割数据的案件占比，标注预设案件占比的分割数据为欺诈案件数据；根据标注为欺诈案件数据的案件数量、历史理赔数据中欺诈案件数据的案件数量以及历史理赔数据中的总案件数量，确定对应初始决策树模型的准确率以及召回率；遍历各初始决策树模型，确定各初始决策树模型的准确率和召回率。

在其中一个实施例中，计算机程序被处理器执行时实现获取历史理赔数据，可以包括：获取初始历史理赔数据，初始历史理赔数据包括多个初始数据维度的数据；根据初始历史理赔数据中欺诈案件数据的总欺诈案件数量以及各初始数据维度对应的欺诈案件数据的案件数量，确定初始历史理赔数据中各初始数据维度对应的欺诈案件占比；根据初始历史理赔数据中各初始数据维度对应的案件数量以及初始历史理赔数据中的总案件数量，确定初始历史理赔数据中各初始数据维度对应的案件分类占比；基于各案件分类占比以及欺诈案件占比，得到历史理赔数据中各初始数据维度对应的欺诈指标；根据各初始数据维度对应的欺诈指标，对初始历史理赔数据中多个初始数据维度的数据进行合并，得到多个数据维度的历史理赔数据。

在其中一个实施例中，计算机程序被处理器执行时实现根据总决策模型对特征数据进行预估，生成对应特征数据的理赔风险指标之后，还可以实现以下步骤：判断理赔风险指标是否大于或等于预设指标阈值；当理赔风险指标大于或等于预设指标阈值时，则触发建立风险调查任务，并发送风险调查任务至终端进行风险调查。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种理赔风险预估方法，其特征在于，所述方法包括：

获取待处理理赔数据；

对所述待处理理赔数据进行预处理，得到对应所述待处理理赔数据的特征数据；

获取预先生成的总决策模型，所述总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的；

根据所述总决策模型对所述特征数据进行预估，生成对应所述特征数据的理赔风险指标。

2.根据权利要求1所述的方法，其特征在于，所述总决策模型的生成方式，包括：

获取历史理赔数据，所述历史理赔数据包括多个数据维度；

从所述多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并从所述历史理赔数据中确定对应各所述目标维度的目标分类数据；

根据各所述目标维度的各目标分类数据，确定对应各所述目标维度的不纯度指标；

基于各所述目标维度的不纯度指标以及所述历史理赔数据，构建初始决策树模型；

判断所述初始决策树模型的数量是否等于预设阈值数量；

当所述初始决策树模型的数量小于预设阈值数量时，则重新从所述多个数据维度中随机选取第一预设数量的数据维度作为目标维度，并继续构建初始决策树模型，直至所述初始决策树模型的数量等于预设阈值数量；

从所述预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于所述第二预设数量的目标决策树模型，生成总决策模型。

3.根据权利要求2所述的方法，其特征在于，所述根据各所述目标维度的各目标分类数据，确定对应各所述目标分类数据的不纯度指标，包括：

根据各所述目标维度的各目标分类数据中欺诈案件数据以及各所述目标分类数据的总案件数据，确定对应各所述目标分类数据的欺诈案件占比；

根据各所述目标分类数据的欺诈案件占比，确定对应各所述目标分类数据的不纯度指标。

4.根据权利要求2所述的方法，其特征在于，所述基于各所述目标维度的不纯度指标以及所述历史理赔数据，构建初始决策树模型，包括：

根据各所述目标维度的不纯度指标，确定不纯度指标最高的目标维度为对所述历史理赔数据进行分割的分割维度；

获取所述分割维度的分割条件，根据所述分割条件对所述历史理赔数据进行分割处理，得到对应所述分割维度中多个分割条件的多个初始分割数据；

判断各所述初始分割数据是否符合分割终止条件；

当各所述初始分割数据不符合分割终止条件时，则分别确定对各所述初始分割数据进行分割的各分割维度，并基于各分割维度对应的分割条件继续对各所述初始分割数据进行分割处理，直至分割处理后的各初始分割数据符合分割终止条件，则得到对应所述历史理赔数据的分割数据，所述对各所述初始分割数据进行分割的各分割维度为从所述第一预设数量的目标维度中去除已进行分割处理对应的分割维度后剩余的目标维度中确定的；

根据各所述分割维度的确定顺序以及各所述分割维度的各分割条件，构建初始决策树模型。

5.根据权利要求4所述的方法，其特征在于，所述判断各所述初始分割数据是否符合分割终止条件包括以下至少一项：

判断在得到所述初始分割数据之前，进行分割处理的分割次数是否大于或等于预设最小分割次数且小于或等于预设最大分割次数；

计算分割处理后得到的多个初始分割数据的各不纯度指标，并判断各所述不纯度指标之间的指标差是否大于或等于预设指标差阈值；

判断分割处理后得到的各所述初始分割数据中案件数量是否均大于或等于预设案件数量阈值。

6.根据权利要求4所述的方法，其特征在于，确定所述初始决策树模型的数量等于预设阈值数量之后，还包括：

根据各所述初始决策树模型对应的各所述分割数据以及所述历史理赔数据，确定对应各所述初始决策树模型的准确率和召回率；

所述从所述预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于所述第二预设数量的目标决策树模型，生成总决策模型，包括：

基于各所述初始决策树模型的准确率和召回率，确定各所述初始决策树模型的模型指标；

根据各所述初始决策树模型的模型指标，从所述预设阈值数量的初始决策树模型中确定第二预设数量的目标决策树模型，并基于所述第二预设数量的目标决策树模型，生成总决策模型。

7.根据权利要求6所述的方法，其特征在于，所述根据各所述初始决策树模型对应的各所述分割数据以及所述历史理赔数据，确定对应各所述初始决策树模型的准确率和召回率，包括：

根据各所述分割数据的总案件数量以及所述历史理赔数据的总案件数量，确定各所述分割数据对应的案件占比；

根据各所述分割数据中欺诈案件数据的案件数量以及对应的分割数据的总案件数量，确定对应各所述分割数据的加权准确率；

基于各所述分割数据的加权准确率，对各所述分割数据进行排序，确定各所述分割数据的排序序列；

根据各所述排序序列以及各所述分割数据的案件占比，标注预设案件占比的分割数据为欺诈案件数据；

根据所述标注为欺诈案件数据的案件数量、所述历史理赔数据中欺诈案件数据的案件数量以及所述历史理赔数据中的总案件数量，确定对应初始决策树模型的准确率以及召回率；

遍历各所述初始决策树模型，确定各所述初始决策树模型的准确率和召回率。

8.根据权利要求2所述的方法，其特征在于，所述获取历史理赔数据，包括：

获取初始历史理赔数据，所述初始历史理赔数据包括多个初始数据维度的数据；

根据所述初始历史理赔数据中欺诈案件数据的总欺诈案件数量以及各初始数据维度对应的欺诈案件数据的案件数量，确定所述历史理赔数据中各初始数据维度对应的欺诈案件占比；

根据所述初始历史理赔数据中各所述初始数据维度对应的案件数量以及所述初始历史理赔数据中的总案件数量，确定所述历史理赔数据中各所述初始数据维度对应的案件分类占比；

基于各所述案件分类占比以及所述欺诈案件占比，得到所述历史理赔数据中各所述初始数据维度对应的欺诈指标；

根据各所述初始数据维度对应的欺诈指标，对所述初始历史理赔数据中所述多个初始数据维度的数据进行合并，得到多个数据维度的历史理赔数据。

9.根据权利要求1所述的方法，其特征在于，所述根据所述总决策模型对所述特征数据进行预估，生成对应所述特征数据的理赔风险指标之后，还包括：

判断所述理赔风险指标是否大于或等于预设指标阈值；

当所述理赔风险指标大于或等于预设指标阈值时，则触发建立风险调查任务，并发送所述风险调查任务至终端进行风险调查。

10.一种理赔风险预估装置，其特征在于，所述装置包括：

待处理理赔数据获取模块，用于获取待处理理赔数据；

预处理模块，用于对所述待处理理赔数据进行预处理，得到对应所述待处理理赔数据的特征数据；

模型获取模块，用于获取预先生成的总决策模型，所述总决策模型是根据历史理赔数据所生成的多个目标决策树模型生成的；

预估模块，用于根据所述总决策模型对所述特征数据进行预估，生成对应所述特征数据的理赔风险指标。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。