CN117911166A

CN117911166A - 团险理赔风险识别方法、装置、计算机设备和存储介质

Info

Publication number: CN117911166A
Application number: CN202311752698.8A
Authority: CN
Inventors: 邢金坤; 向玲; 阮强; 邹鹏杰; 侯津京; 刘册
Original assignee: China Life Insurance Co ltd
Current assignee: China Life Insurance Co ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-04-19

Abstract

本申请涉及一种团险理赔风险识别方法、装置、计算机设备和存储介质。所述方法包括：基于异常理赔行为事件获取目标风险特征项，目标风险特征项包括团险业务中不同对象分别对应的特征项；获取目标对象中与目标风险特征项相匹配的第一风险特征及目标对象的关联对象中与目标风险特征项相匹配的第二风险特征；基于预设的目标对象风险识别模型，对第一风险特征和第二风险特征进行识别，得到目标对象对应的目标对象风险清单，目标对象风险清单用于指示目标对象的异常理赔风险。采用上述方法可以基于人工智能技术快速识别团险业务中异常理赔行为的识别和预测，合理控制赔付和识别阻断有组织的欺诈，提高异常理赔排查效率。

Description

团险理赔风险识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种团险理赔风险识别方法、装置、计算机设备和存储介质。

背景技术

团险是指通过一个团体或组织，为其成员集体购买保险的一种保险形式，其作为保险公司创费的重要渠道，理赔欺诈案件频发且涉案金额较高，尤其是团体短险，保险期限较短，保险金比较容易被滥用。因此，识别团险异常理赔的风险并阻断有组织的欺诈有助于保险公司合理控制赔付。

然而，团险保单数据量大且欺诈行为关系错杂，当前多利用人工进行排查，不仅存在滞后性，很难从源头控制成本，且效率低下、很难及时进行预警管控。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高排查效率的团险理赔风险识别方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种团险理赔风险识别方法。该方法包括：

基于异常理赔行为事件获取目标风险特征项，目标风险特征项包括团险业务中不同对象分别对应的特征项；

获取目标对象中与目标风险特征项相匹配的第一风险特征及目标对象的关联对象中与目标风险特征项相匹配的第二风险特征；

基于预设的目标对象风险识别模型，对第一风险特征和第二风险特征进行识别，得到目标对象对应的目标对象风险清单，目标对象风险清单用于指示目标对象的异常理赔风险。

在其中一个实施例中，目标对象风险识别模型是通过如下步骤确定的：

获取针对目标对象风险识别模型的目标对象样本数据集，目标对象样本数据集包括至少一个样本目标对象的样本信息及每个样本目标对象的赔付率标签，样本目标对象的样本信息包括样本目标对象中与目标风险特征项相匹配的第一样本风险特征及样本目标对象的样本关联对象中与目标风险特征项相匹配的第二样本风险特征；

根据目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型。

在其中一个实施例中，初始的目标对象风险识别模型至少包括第一候选分类模型和第二候选分类模型，第一候选分类模型和第二候选分类模型的分类数量不同；

根据目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型，包括：

利用目标对象样本数据集对第一候选分类模型进行训练，得到训练好的第一候选分类模型；

利用目标对象样本数据集对第二候选分类模型进行训练，得到训练好的第二候选分类模型；

比较训练好的第一候选分类模型的预测效果和训练好的第二候选分类模型的预测效果，得到比较结果，并基于比较结果，确定训练好的目标对象风险识别模型。

在其中一个实施例中，初始的目标对象风险识别模型包括多个候选结构识别模型；

针对每个候选结构识别模型，利用目标对象样本数据集对候选结构识别模型进行训练，得到训练好的候选结构识别模型；

基于多个训练好的候选结构识别模型分别对应的预测结果，将多个训练好的候选结构识别模型进行融合，确定训练好的目标对象风险识别模型。

在其中一个实施例中，根据目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型，包括：

基于异常理赔行为事件获取目标风险行为模式，并利用目标风险行为模式，确定多个目标风险特征项的特征组合方式；

利用特征组合方式对目标对象样本数据集进行更新；

根据更新后的目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型。

针对目标对象样本数据集中原始的样本风险特征，确定不同样本风险特征之间的相关性；

在相关性大于预定相关阈值的情况下，判断不同样本风险特征分别关联的风险行为模式是否相同，得到判断结果，风险行为模式用于指示风险特征对理赔风险的风险暗示；

根据判断结果对目标对象样本数据集进行更新。

在其中一个实施例中，该团险理赔风险识别方法还包括：

获取预设的关联对象风险识别模型；

基于关联对象风险识别模型获得关联对象的关联对象风险清单；

结合关联对象风险清单和目标对象风险清单，确定目标对象的异常理赔风险。

第二方面，本申请还提供了一种团险理赔风险识别装置。该装置包括：

提炼模块，用于基于异常理赔行为事件获取目标风险特征项，目标风险特征项包括团险业务中不同对象分别对应的特征项；

获取模块，用于获取目标对象中与目标风险特征项相匹配的第一风险特征及目标对象的关联对象中与目标风险特征项相匹配的第二风险特征；

识别模块，用于基于预设的目标对象风险识别模型，对第一风险特征和第二风险特征进行识别，得到目标对象对应的目标对象风险清单，目标对象风险清单用于指示目标对象的异常理赔风险。

第三方面，本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。该计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述团险理赔风险识别方法、装置、计算机设备和存储介质，基于异常理赔行为事件获取目标风险特征项，目标风险特征项包括团险业务中不同对象分别对应的特征项；获取目标对象中与目标风险特征项相匹配的第一风险特征及目标对象的关联对象中与目标风险特征项相匹配的第二风险特征；基于预设的目标对象风险识别模型，对第一风险特征和第二风险特征进行识别，得到目标对象对应的目标对象风险清单，目标对象风险清单用于指示目标对象的异常理赔风险。采用上述方法可以基于人工智能技术快速识别团险业务中异常理赔行为的识别和预测，合理控制赔付和识别阻断有组织的欺诈，提高异常理赔排查效率。进一步地，本申请预先通过异常理赔行为事件获取目标风险特征项，可以更针对性地筛选与异常理赔相关的风险特征，加快模型识别效率且提高准确率，并且，采用多个对象即多个维度下的风险特征，避免特征数据维度小、数据量少，风险点覆盖不全面。

附图说明

图1为一个实施例中团险理赔风险识别方法的应用环境图；

图2为一个实施例中团险理赔风险识别方法的流程示意图；

图3为另一个实施例中团险理赔风险识别方法的流程示意图；

图4为另一个实施例中训练二分类模型的流程示意图；

图5为另一个实施例中训练多分类模型的流程示意图；

图6为另一个实施例中确定训练好的目标对象风险识别模型的流程示意图；

图7为另一个实施例中确定训练好的目标对象风险识别模型的流程示意图；

图8为另一个实施例中确定训练好的目标对象风险识别模型的流程示意图；

图9为另一个实施例中更新目标对象样本数据集的流程示意图；

图10为另一个实施例中确定目标对象的异常理赔风险的流程示意图；

图11为一个实施例中团险理赔风险识别装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在对本申请实施例进行介绍说明之前，首先对本申请中涉及的相关名词进行解释说明。

团险：即团体保险，是通过一个团体或组织为其成员集体购买保险的一种保险形式。

团险异常理赔：在团体保险中出现异常或超出正常范围的理赔情况，这些异常理赔可能是由于欺诈、虚假、不当行为或其他不合规的操作引起的，如非法投保、虚假理赔、掺杂不当因素等。

团险异常理赔风险：在团体保险合同范围内，团体成员出现异常的理赔请求或在理赔处理中存在不正当行为的风险。

人工智能（Artificial Intelligence，AI）：利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

特征工程：机器学习中的一个重要步骤，它涉及将原始特征数据转换成适合机器学习算法使用的特征数据。特征工程的目标是提取数据中最有用的特征，以便于模型能够更好地学习和预测。

当前团险保单数据量大，且欺诈行为关系错综复杂，仅采用人工排查费时费力、效率低下，本申请实施例通过预先确定目标风险特征项，提取目标风险特征项匹配的风险特征并采用人工智能技术的机器学习模型进行识别，能够快速识别出目标对象的异常理赔风险，以便及时进行排查和预警管控。

下述将对本申请实施例提供方案的实施环境进行说明。

本申请实施例提供的团险理赔风险识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。数据存储系统可以预先存储异常理赔行为事件的案例，服务器104基于异常理赔行为事件获取目标风险特征项，并在接收来自终端102发送的关于目标对象的数据信息时，根据目标风险特征项提取风险特征，再通过已训练好的目标对象风险识别模型进行识别，确定目标对象的异常理赔风险。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

下述为本申请方法实施例，通过该方法实施例对团险理赔风险识别方法进行说明，对于本申请方法实施例中未披露的细节，请参照上述实施例。

在一个实施例中，如图2所示，提供了一种团险理赔风险识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，基于异常理赔行为事件获取目标风险特征项。

其中，目标风险特征项包括团险业务中不同对象分别对应的特征项，特征项可以表征风险特征对应的类型或者属性。

在团险业务中涉及许多不同的对象，例如保单、投保人、被保险人、保险代理人和保险营销人员等。不同的对象可以具有不同或相同的原始风险特征项，本申请实施例可以基于包括异常理赔行为事件的历史案例，从不同的对象分别对应的原始风险特征项中提炼形成目标风险特征项，该目标风险特征项与异常理赔行为具备相关性，可以更有针对性地对异常理赔风险进行识别。

在本申请实施例中，目标风险特征项可以包括不同对象即不同维度分别对应的多个提炼出的风险特征项，以使理赔风险点覆盖全面。例如，对于投保人维度，从异常理赔行为事件中提炼出的目标风险特征项可以包括“高保额被保人占比”、“员工在公司投保的占比”等。

步骤204，获取目标对象中与目标风险特征项相匹配的第一风险特征及目标对象的关联对象中与目标风险特征项相匹配的第二风险特征。

其中，目标对象是指团险业务中待进行异常理赔风险识别的对象，例如，其可以为待识别保单、待识别投保人、待识别被保险人、待识别保险代理人和待识别保险营销人员等中的任一个。关联对象是指与目标对象相关联的对象，关联对象可以有一个或者多个。

本申请实施例在确定目标风险特征项之后，基于目标风险特征项中各对象分别对应的特征项，获取目标对象对应的第一风险特征及关联对象的第二风险特征。

例如，目标风险特征项可以包括目标对象对应的20个特征项，第一关联对象对应的15个特征项，第二关联对象对应的10个特征项，则从目标对象的基础数据中提取该20个特征项具体对应的20个第一风险特征，从第一关联对象的基础数据中提取该15个特征项具体对应的15个第二风险特征，从第二关联对象的基础数据中提取该10个特征项具体对应的10个第二风险特征。

步骤206，基于预设的目标对象风险识别模型，对第一风险特征和第二风险特征进行识别，得到目标对象对应的目标对象风险清单，目标对象风险清单用于指示目标对象的异常理赔风险。

本申请实施例采用人工智能技术，该训练好的目标对象风险识别模型能够基于目标对象相关的第一风险特征和第二风险特征来预测目标对象的异常理赔风险，得到目标对象的目标对象风险清单。在训练初始的目标对象风险识别模型时，结合目标对象对应的样本目标对象和关联对象对应的样本关联对象的样本数据，捕获样本数据和样本目标对象的异常理赔风险之间的映射关系，从而得到能够进行异常理赔风险识别的目标对象风险识别模型。

上述团险理赔风险识别方法中，基于异常理赔行为事件获取目标风险特征项，目标风险特征项包括团险业务中不同对象分别对应的特征项；获取目标对象中与目标风险特征项相匹配的第一风险特征及目标对象的关联对象中与目标风险特征项相匹配的第二风险特征；基于预设的目标对象风险识别模型，对第一风险特征和第二风险特征进行识别，得到目标对象对应的目标对象风险清单，目标对象风险清单用于指示目标对象的异常理赔风险。采用上述方法可以基于人工智能技术快速识别团险业务中异常理赔行为的识别和预测，合理控制赔付和识别阻断有组织的欺诈，提高异常理赔排查效率。

进一步地，本申请实施例预先通过异常理赔行为事件获取目标风险特征项，可以更针对性地筛选与异常理赔相关的风险特征，加快模型识别效率且提高准确率，并且，采用多个对象即多个维度下的风险特征，避免特征数据维度小、数据量少，风险点覆盖不全面。

以下将从目标对象风险识别模型训练的角度进一步说明本申请。

在一个实施例中，如图3所示，提供了一种团险理赔风险识别方法，该方法包括：

步骤302，获取针对目标对象风险识别模型的目标对象样本数据集。

其中，目标对象样本数据集包括至少一个样本目标对象的样本信息及每个样本目标对象的赔付率标签，样本目标对象的样本信息包括样本目标对象中与目标风险特征项相匹配的第一样本风险特征及样本目标对象的样本关联对象中与目标风险特征项相匹配的第二样本风险特征。

例如，目标对象可以是待识别保单，样本目标对象可以是历史保单，关联对象可以包括与待识别保单关联的投保人和营销员，样本关联对象可以包括与历史保单关联历史投保人和历史营销员。

本申请实施例可以以赔付率作为目标对象风险识别模型的预测目标，保单赔付率越高则发生异常理赔的风险越大，赔付率可以通过实际赔款和实收保费的比值确定。

示例性地，获取历史保单、与历史保单关联的历史投保人和历史营销员的基础数据，基于目标风险特征项对基础数据进行特征计算和逻辑校验，得到历史保单对应的第一样本风险特征、历史投保人对应的第二样本风险特征和历史营销员对应的第二样本风险特征，以历史保单的赔付率信息作为标签，得到一条训练样本，用于构造初始的目标对象风险识别模型的训练数据集。

步骤304，根据目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型。

步骤306，获取目标对象中与目标风险特征项相匹配的第一风险特征及目标对象的关联对象中与目标风险特征项相匹配的第二风险特征，并基于训练好的目标对象风险识别模型对第一风险特征和第二风险特征进行识别，得到目标对象的异常理赔风险。

示例性地，获取待识别保单、与待识别保单关联的投保人和营销员的基础数据，基于目标风险特征项对基础数据进行特征计算和逻辑校验，得到待识别保单对应的第一风险特征、投保人对应的第二风险特征和营销员对应的第二风险特征，利用训练好的目标对象风险识别模型确定待识别保单的赔付率信息，以预测待识别保单的异常理赔风险。

在如图3示出的实施例的一种可能的实现方式中，初始的目标对象风险识别模型可以为第一候选分类模型，第一候选分类模型可以为二分类模型。步骤304具体可以包括如图4所示的步骤：

步骤402，将赔付率大于预设赔付阈值的目标对象样本作为正样本，将赔付率小于或等于预设赔付阈值的目标对象样本作为负样本。

步骤404，对正样本和负样本分别设置不同的赔付率标签，得到目标对象样本数据集，并利用目标对象样本数据集对初始的目标对象风险识别模型以确定训练好的目标对象风险识别模型。

例如，当赔付率采用实际赔款和实收保费的比值时，预设赔付阈值可以为1，赔付率大于1可以认定为存在异常理赔风险，将赔付率大于1的样本保单标记为正样本，反之则为负样本，在设置赔付率标签时，将正样本的赔付率标签设置为1，将负样本的赔付率标签设置为0，通过训练二分类模型确定训练好的目标对象风险识别模型，从而对待识别保单进行风险识别。

进一步地，在进行风险识别时，训练好的二分类模型可以输出待识别保单对应的在0至1区间内的得分，得分越高异常理赔风险越大，具体地，可以基于模型的预测效果设定风险阈值，得分大于风险阈值的待识别保单识别为存在异常理赔风险，得分小于或等于风险阈值的待识别保单识别为不存在异常理赔风险。

在确定训练好的目标对象风险识别模型之后，可以对模型的预测效果和可解释性进行分析。

例如，关于模型的预测效果，由于在风控领域异常行为检测的场景下，存在正负样本数量不平衡的情况，在评估不平衡训练集对应的模型性能时，准确率（accuracy）这个评价指标存在较大的缺陷，因此，本申请实施例使用综合分析真阳性率和假阳性率的auc（ROC曲线下与坐标轴围成的面积）和ks值（KS是分析两组数据分布是否相同的检验指标，在保险风控领域中，y值和预测得到的风险得分刚好是未知的两个分布，可以通过ks值判断两个分布的相似性，进而评价模型的预测效果）作为评估模型的标准，根据验证集数据分类的精准度和召回率对模型进行调参和优化。

又例如，关于训练好的二分类模型的可解释性，对模型进行解释和特征数据的挖掘分析，输出特征重要性；运用LIME算法评估模型预测结果的可信度，并解释模型的分析结果；结合特征重要性解释哪些特征属性对模型的影响较大，并分析是否和业务场景的预期相符。

在如图3示出的实施例的另一种可能的实现方式中，初始的目标对象风险识别模型可以为第二候选分类模型，第二候选分类模型可以为多分类模型。步骤304具体可以包括如图5所示的步骤：

步骤502，对赔付率进行分段处理，得到多个指定赔付率区间。

步骤504，确定目标对象样本的赔付率所归属的指定赔付率区间，以确定目标对象样本的赔付率标签，得到目标对象样本数据集，并利用目标对象样本数据集对初始的目标对象风险识别模型以确定训练好的目标对象风险识别模型。

在本申请实施例中，由于不同保单的赔付率呈现长尾分布，取值范围跨度过大，可以对赔付率进行分段处理，训练多分类模型。

例如，当赔付率采用实际赔款和实收保费的比值，赔付率区间为0～0.01时，赔付率标签为0；赔付率区间为0.01～1时，赔付率标签为1；赔付率区间为1～2时，赔付率标签为2；赔付率区间为2～10时，赔付率标签为3；赔付率区间为10～100时，赔付率标签为4；赔付率区间为大于100时，赔付率标签为5。通过训练多分类模型确定训练好的目标对象风险识别模型，从而对待识别保单进行风险识别。

进一步地，在进行风险识别时，训练好的多分类模型可以输出包括6个元素的数组，每个元素代表待识别保单归属于一个区间的概率，可以选取概率最大的作为待识别保单的识别结果。

在如图3示出的实施例的另一种可能的实现方式中，初始的目标对象风险识别模型至少包括第一候选分类模型和第二候选分类模型，第一候选分类模型和第二候选分类模型的分类数量不同，步骤304的根据目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型，可以包括如图6所示的步骤：

步骤602，利用目标对象样本数据集对第一候选分类模型进行训练，得到训练好的第一候选分类模型。

其中，第一候选分类模型可以为二分类模型，得到训练好的第一候选分类模型的过程具体可以参考如图4示出的实施例。

步骤604，利用目标对象样本数据集对第二候选分类模型进行训练，得到训练好的第二候选分类模型。

其中，第二候选分类模型可以为多分类模型，得到训练好的第二候选分类模型的过程具体可以参考如图5示出的实施例。

步骤606，比较训练好的第一候选分类模型的预测效果和训练好的第二候选分类模型的预测效果，得到比较结果，并基于比较结果，确定训练好的目标对象风险识别模型。

例如，通过精确度、召回率等指标表征第一候选分类模型的预测效果和训练好的第二候选分类模型的预测效果，当第一候选分类模型的预测效果大于训练好的第二候选分类模型的预测效果时，采用训练好的二分类模型来进行风险识别；当第二候选分类模型的预测效果大于训练好的第一候选分类模型的预测效果时，采用训练好的多分类模型来进行风险识别。

在如图3示出的实施例的另一种可能的实现方式中，初始的目标对象风险识别模型包括多个候选结构识别模型；步骤304的根据目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型，可以具体包括如图7所示的步骤：

步骤702，针对每个候选结构识别模型，利用目标对象样本数据集对候选结构识别模型进行训练，得到训练好的候选结构识别模型。

本申请实施例可以采用二分类模型来进行风险识别，其中，本申请实施例的二分类模型可以分别具体采用LightGBM、XGBoost和DeepFM等三种模型结构。

XGBoost（eXtreme Gradient Boosting）是一种基于梯度提升决策树（GradientBoosting Decision Tree，GBDT）算法的机器学习框架，通过多轮迭代,每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练，将每轮训练得到的弱分类器加权求和得到最终的总分类器。

LightGBM（Light Gradient Boosting Machine）是一种基于梯度提升算法（Gradient Boosting）的高性能机器学习框架。它是一种快速、高效、分布式的梯度提升框架，专门用于解决大规模数据集的机器学习问题。

DeepFM是一种结合了深度神经网络（Deep Neural Network）和因子分解机（Factorization Machines）的模型。它通过将特征因子化来捕捉特征之间的交互关系，同时使用神经网络学习非线性特征表示。

例如，多个候选结构识别模型可以包括LightGBM二分类模型、XGBoost二分类模型以及DeepFM二分类模型，利用目标对象样本数据集分别对三个候选结构识别模型进行训练，得到训练好的LightGBM二分类模型、训练好的XGBoost二分类模型以及训练好的DeepFM二分类模型。

步骤704，基于多个训练好的候选结构识别模型分别对应的预测结果，将多个训练好的候选结构识别模型进行融合，确定训练好的目标对象风险识别模型。

例如，本申请实施例可以基于stacking的思路将训练好的LightGBM二分类模型、训练好的XGBoost二分类模型以及训练好的DeepFM二分类模型进行融合，得到训练好的目标对象风险识别模型。stacking思路是一种模型集成的方法，用于将多个不同模型的预测结果进行融合。具体地，该目标对象风险识别模型是在单个模型的预测结果上训练的，它的输入是各个模型的预测结果按行拼接的矩阵，该模型可以是线性模型（如逻辑回归、线性SVM等）或非线性模型（如随机森林、神经网络等），取决于数据的特点和模型的表现。

本实施例通过将多个训练好的候选结构识别模型进行融合，确定训练好的目标对象风险识别模型，支持多模型融合，结合不同模型在不同数据上的优势，更加高效地预测欺诈行为，将各个模型的预测结果整合起来，提高模型的泛化性能。

在如图3示出的实施例的另一种可能的实现方式中，步骤304的根据目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型中，在模型训练之前，可以通过特征工程对目标对象样本数据集中的样本数据特征进行更新，以使最终输入初始的目标对象风险识别模型的特征可以更好地学习和预测，该特征工程可以至少包括对训练数据集进行统计分布分析、缺失值处理、特征选择、相关性分析、特征转换和采样处理等中的任一种或多种。

例如，缺失值处理具体为对样本的缺失值进行统计，删除特征缺失占比超过90%的样本；之后对特征的缺失情况进行分析，根据缺失的原因采用了k近邻、多重插补、统计替换等方法进行填充处理。

又例如，特征选择具体为通过计算各个特征的均值和方差，筛选均值不为零且方差大于阈值的特征，并计算Pearson相关系数对不同特征之间的相关性进行分析。

再例如，特征转换具体为对训练数据集所有特征的分布进行统计分析，对于样本中离散的分类特征进行One-Hot编码，结合业务背景对部分数值型属性通过划分范围和kmeans聚类方法进行分区将连续变量离散化，对服从极端长尾分布、取值范围过大的连续性特征进行对数转换。

还例如，采样处理为多数现有的二分类模型基于正负样本数比例均衡这一假设，但是在风控领域异常行为检测的场景下，存在理赔欺诈风险的保单占比较小，正负样本相差非常悬殊。在数据预处理时，可以采用降采样和过采样两种方法构造均衡数据集，先通过降采样随机抽取10倍正样本数据量的负样本，使各类别数据比例维持在一个合理的区间，再通过SMOTE合成少数类过采样技术，对正类样本进行分析并根据正类样本人工插值合成与负类样本数据量相当的新样本添加到训练数据集中。

进一步地，在根据业务排查情况进行团险理赔风险识别后，可以及时补充正负样本信息，持续进行模型的迭代优化。

在上述实施例的特征工程中还可以包括特征组合，特征组合可以具体包括如图8所示的步骤：

步骤802，基于异常理赔行为事件获取目标风险行为模式，并利用目标风险行为模式，确定多个目标风险特征项的特征组合方式。

其中，风险行为模式可以指投保人、保单和营销员的行为模式中可能存在的风险行为，其可以通过对特征取值不同阈值的切分和不同特征的组合提供特征的非线性变换。特征组合方式为针对目标对象样本数据集中原始的第一样本风险特征及第二样本风险特征的组合方式。

例如，基于异常理赔案例提炼形成投保人、保单、营销员3个维度共31个目标风险行为模式和190个目标风险特征项，每个目标风险行为模式与若干个个目标风险特征项具备关联性。基于目标对象样本数据集的统计分析和目标风险行为模式对应的目标风险特征项，可以通过专家经验、领域知识和实验分析等方法来确定特征组合方式，例如将某些目标风险行为模式对应的目标风险特征项进行特征组合，特征组合方式可以是简单的加权求和、逻辑运算，或者更复杂的特征集成方法，如决策树、模型融合等。通过特征组合，将多个相关特征信息融合在一起，从而增加特征的有效性和完整性，减少数据稀疏性的影响，捕捉不同特征之间的相关性、依赖关系和非线性变化，有助于提高模型的表达能力和预测准确度。

步骤804，利用特征组合方式对目标对象样本数据集进行更新。

步骤806，根据更新后的目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型。

进一步地，与特征组合对应的，还有特征拆解的情况，比如因为身份证号存在性别和年龄信息，身份证号和性别、年龄存在相关性，此时通过拆解身份证号信息获取年龄和性别更具有准确性。

在上述实施例的特征工程中的特征选择，可以具体包括如图9所示的步骤：

步骤902，针对目标对象样本数据集中原始的样本风险特征，确定不同样本风险特征之间的相关性。

步骤904，在相关性大于预定相关阈值的情况下，判断不同样本风险特征分别关联的风险行为模式是否相同，得到判断结果，风险行为模式用于指示风险特征对理赔风险的风险暗示。

步骤906，根据判断结果对目标对象样本数据集进行更新。

例如，保单对应的目标风险特征项包括健康险保费和保单的被保人人数，对目标对象样本数据集中样本保单对应的具体的健康险保费和具体的被保人人数进行相关性计算，其相关系数达到0.7，大于或等于预定相关阈值，认为健康险保费和被保人人数相关性较高，可以理解地，保费的高低通常受被保人人数影响。然而，这两个特征可能对理赔风险有不同的风险暗示，保单的健康险保费异常对应“异常保费分布”的风险行为模式，被保人人数异常对应“风险集中员工投保”的风险行为模式，因此，结合业务逻辑的考虑需要同时保留这两个特征。如果这两个特征相关性较高但属于同一个风险行为模式，可以选择其一保留。

在如图1示出的实施例的另一种可能的实现方式中，该团险理赔风险识别方法还包括如图10所示的步骤：

步骤1002，获取预设的关联对象风险识别模型。

本申请实施例对于关联对象也可以预先训练关联对象风险识别模型。

示例性地，针对关联对象为投保人，一个训练样本中的样本信息可以包括一个投保人对应的风险特征，还可以包括以该投保人为维度的一些保单聚合特征和营销员聚合特征；一个训练样本中的标签可以为该投保人的赔付率，比如投保人所有保单赔款与投保人所有保单保费的比值。

进一步地，针对关联对象为被保人来说，一个训练样本中的样本信息可以包括一个被保人对象自己维度的风险特征、该被保人所属的保单的风险特征；一个训练样本中的标签可以为该被保人的赔付率，比如被保人所有保单赔款与被保人所有保单保费的比值。

更进一步地，针对关联对象为营销员来说，一个训练样本中的样本信息可以包括一个营销员自己的风险特征；一个训练样本中的标签可以为该营销员排查违规的记录。此外，在针对营销员的风险点排查时，这部分营销员的风险清单不限于理赔欺诈的风险点，这些风险营销员可能是存在非法集资、舞弊欺诈的风险，但是存在这种风险的营销员也需要关注，他们销售的保单和找他们投保的投保人也可能存在问题，因此会综合各类风险清单辅助排查和判断。

步骤1004，基于关联对象风险识别模型获得关联对象的关联对象风险清单。

例如，目标对象可以是待识别保单，关联对象可以是待识别保单关联的投保人和营销员，在基于预设的目标对象风险识别模型，对待识别保单进行识别，得到待识别保单的风险清单后，可以再通过投保人的关联对象风险识别模型对待识别保单关联的投保人进行识别，得到待识别保单关联的投保人的风险清单，通过营销员的关联对象风险识别模型对待识别保单关联的营销员进行识别，得到待识别保单关联的营销员的风险清单。

步骤1006，结合关联对象风险清单和目标对象风险清单，确定目标对象的异常理赔风险。

本申请实施例可以预测输出保单、投保人、被保人和营销员等多级风险清单，结合关联对象风险清单和目标对象风险清单对目标对象进行更准确、维度更高的异常理赔风险识别，并及时进行排查和预警管控。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的团险理赔风险识别方法的团险理赔风险识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个团险理赔风险识别装置实施例中的具体限定可以参见上文中对于团险理赔风险识别方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种团险理赔风险识别装置，包括：提炼模块1102、获取模块1104和识别模块1106，其中：

提炼模块1102，用于基于异常理赔行为事件获取目标风险特征项，目标风险特征项包括团险业务中不同对象分别对应的特征项。

获取模块1104，用于获取目标对象中与目标风险特征项相匹配的第一风险特征及目标对象的关联对象中与目标风险特征项相匹配的第二风险特征。

识别模块1106，用于基于预设的目标对象风险识别模型，对第一风险特征和第二风险特征进行识别，得到目标对象对应的目标对象风险清单，目标对象风险清单用于指示目标对象的异常理赔风险。

上述团险理赔风险识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种团险理赔风险识别方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种团险理赔风险识别方法，其特征在于，所述方法包括：

基于异常理赔行为事件获取目标风险特征项，所述目标风险特征项包括团险业务中不同对象分别对应的特征项；

获取目标对象中与所述目标风险特征项相匹配的第一风险特征及所述目标对象的关联对象中与所述目标风险特征项相匹配的第二风险特征；

基于预设的目标对象风险识别模型，对所述第一风险特征和所述第二风险特征进行识别，得到所述目标对象对应的目标对象风险清单，所述目标对象风险清单用于指示所述目标对象的异常理赔风险。

2.根据权利要求1所述的方法，其特征在于，所述目标对象风险识别模型是通过如下步骤确定的：

获取针对目标对象风险识别模型的目标对象样本数据集，所述目标对象样本数据集包括至少一个样本目标对象的样本信息及每个样本目标对象的赔付率标签，所述样本目标对象的样本信息包括所述样本目标对象中与所述目标风险特征项相匹配的第一样本风险特征及所述样本目标对象的样本关联对象中与所述目标风险特征项相匹配的第二样本风险特征；

根据所述目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型。

3.根据权利要求2所述的方法，其特征在于，所述初始的目标对象风险识别模型至少包括第一候选分类模型和第二候选分类模型，所述第一候选分类模型和所述第二候选分类模型的分类数量不同；

所述根据所述目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的所述目标对象风险识别模型，包括：

利用所述目标对象样本数据集对所述第一候选分类模型进行训练，得到训练好的第一候选分类模型；

利用所述目标对象样本数据集对所述第二候选分类模型进行训练，得到训练好的第二候选分类模型；

比较所述训练好的第一候选分类模型的预测效果和所述训练好的第二候选分类模型的预测效果，得到比较结果，并基于所述比较结果，确定所述训练好的目标对象风险识别模型。

4.根据权利要求2所述的方法，其特征在于，所述初始的目标对象风险识别模型包括多个候选结构识别模型；

针对每个候选结构识别模型，利用所述目标对象样本数据集对所述候选结构识别模型进行训练，得到训练好的候选结构识别模型；

基于多个训练好的候选结构识别模型分别对应的预测结果，将多个训练好的候选结构识别模型进行融合，确定所述训练好的目标对象风险识别模型。

5.根据权利要求2所述的方法，其特征在于，根据所述目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型，包括：

基于所述异常理赔行为事件获取目标风险行为模式，并利用目标风险行为模式，确定多个目标风险特征项的特征组合方式；

利用所述特征组合方式对所述目标对象样本数据集进行更新；

6.根据权利要求2所述的方法，其特征在于，所述根据所述目标对象样本数据集和初始的目标对象风险识别模型，确定训练好的目标对象风险识别模型，包括：

针对所述目标对象样本数据集中原始的样本风险特征，确定不同样本风险特征之间的相关性；

在所述相关性大于预定相关阈值的情况下，判断不同样本风险特征分别关联的风险行为模式是否相同，得到判断结果，所述风险行为模式用于指示风险特征对理赔风险的风险暗示；

根据所述判断结果对所述目标对象样本数据集进行更新。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取预设的关联对象风险识别模型；

基于所述关联对象风险识别模型获得所述关联对象的关联对象风险清单；

结合所述关联对象风险清单和所述目标对象风险清单，确定所述目标对象的异常理赔风险。

8.一种团险理赔风险识别装置，其特征在于，所述装置包括：

提炼模块，用于基于异常理赔行为事件获取目标风险特征项，所述目标风险特征项包括团险业务中不同对象分别对应的特征项；

获取模块，用于获取目标对象中与所述目标风险特征项相匹配的第一风险特征及所述目标对象的关联对象中与所述目标风险特征项相匹配的第二风险特征；

识别模块，用于基于预设的目标对象风险识别模型，对所述第一风险特征和所述第二风险特征进行识别，得到所述目标对象对应的目标对象风险清单，所述目标对象风险清单用于指示所述目标对象的异常理赔风险。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。