CN109285075B

CN109285075B - 一种理赔风险评估方法、装置及服务器

Info

Publication number: CN109285075B
Application number: CN201710592208.0A
Authority: CN
Inventors: 陈培炫; 段培; 陈玲; 陈谦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2022-03-01
Anticipated expiration: 2037-07-19
Also published as: CN109285075A

Abstract

本申请实施例提供一种理赔风险评估方法、装置及服务器，通过利用待估用户的多种行为数据，经预处理得到第一数量维度的初始特征数据，利用特征选择算法对其进行特征筛选，得到第二数量维度的特征变量，并将其划分成第三数量类型的特征集，从而利用机器学习算法，对这第三数量类型的特征集包含的特征变量进行计算，确定待估用户的目标赔付率。由此可见，本申请在预测用户的赔付风险时，充分考虑了待估用户各方面对理赔风险的影响，得到成千上万的预测模型输入变量，降低了个别输入变量扰动对预测结果的干扰，提高了用户赔付风险评估的准确性以及稳定性，以便业务人员针对待估用户指定合理且可靠的投保与理赔方案。

Description

一种理赔风险评估方法、装置及服务器

技术领域

本申请涉及保险应用领域，具体涉及一种理赔风险评估方法、装置及处理服务器。

背景技术

改革开放以来，随着我国保险业不断发展壮大，保险在经济社会中发挥的功能和作用越来越突出，尤其是汽车保险(简称车险)在30多年间更得到了迅速发展，为经济社会发展和人民生活稳定提供了重要保障。然而，近些年行业综合成本率居高不下，车险的发展理念逐渐从“销售为王”向“精细管理”转变。而且，目前行业内常用的车险费率模型中，用于定价的数据维度通常都比较少，从而使车主的个性化风险定价空间有限，好车主和坏车主的车险费差别不大，非常不公平。

对此，行业提出了基于UBI车险(Usage Based Insurance，基于驾驶行为而定保费的保险)定价的商业模式，也就是说，基于用户驾驶时间、驾驶行为习惯、驾驶路径、驾驶频率以及车辆的车辆购置价、车型、座位数以及厂商等从车因子，预测用户的赔付风险(通常指赔付率)，从而根据用户的预测赔付率大小，来确定用户车辆的保费。

申请人发现，如今绝大部分的交通事故是人为引起的，而现有的预测用户赔付率的模型的输入变量多为从车因子，且从车因子的权重最大，导致传统预测模型输出的预测赔付率准确性较低，往往会使大部分优质的车险用户，为少数因恶劣的驾驶行为造成高额理赔的用户买单。

由此可见，如何使投保人的车险保费设定更加合理成为本领域研究重点。

发明内容

有鉴于此，本申请实施例提供一种理赔风险评估方法、装置及服务器，解决了现有技术无法针对不同投保人特点，合理设定车险保费的技术问题。

为了解决上述技术问题，本申请提出了以下技术方案：

本申请实施例提供了一种理赔风险评估方法，所述方法包括：

获取待估用户的行为数据；

对所述待估用户的行为数据进行预处理，得到第一数量维度的初始特征数据；

利用特征选择算法，对所述第一数量维度的初始特征数据进行特征筛选，得到第二数量维度的特征变量，所述第二数量不大于所述第一数量；

将所述第二数量维度的特征变量划分成不同类型的第三数量特征集，每个类型的特征集包含有多个维度的特征变量，所述第三数量小于所述第二数量；

利用机器学习算法，对所述第三数量特征集各自包含的特征变量进行计算，确定所述待估用户的目标赔付率。

本申请实施例提供了还一种理赔风险评估装置，所述装置包括：

数据获取模块，用于获取待估用户的行为数据；

预处理模块，用于对所述待估用户的行为数据进行预处理，得到第一数量维度的初始特征数据；

特征处理模块，用于利用特征选择算法，对所述第一数量维度的初始特征数据进行特征筛选，得到第二数量维度的特征变量，所述第二数量不大于所述第一数量；

分组模块，用于将所述第二数量维度的特征变量划分成不同类型的第三数量特征集，每个类型的特征集包含有多个维度的特征变量，所述第三数量小于所述第二数量；

计算模块，用于利用机器学习算法，对所述第三数量特征集各自包含的特征变量进行计算，确定所述待估用户的目标赔付率。

本申请实施例提供了还一种服务器，所述服务器包括：

通信端口；

存储器，用于实现如上所述的理赔风险评估方法的多个指令；

处理器，用于加载并执行所述多个指令，包括：

获取待估用户的行为数据；

基于上述技术方案，本申请实施例中，当用户(即为待估用户)进行车险投保时，业务人员可以先对该待估用户理赔风险进行一下评价，以便指定合理的投保与理赔方案，具体可以通过多个用户行为数据源，获得待估用户的多种行为数据，通过对这些行为数据进行预处理，得到第一数量维度的初始特征数据，之后，利用特征选择算法，对这第一数量维度的初始特征数据进行特征筛选，得到第二数量维度的特征变量，并将其划分成第三数量类型的特征集，从而利用机器学习算法，对这第三数量类型的特征集包含的特征变量进行计算，确定待估用户的目标赔付率。由此可见，本申请在预测用户的赔付风险时，充分考虑了待估用户各方面对理赔风险的影响，得到成千上万的预测模型输入变量，降低了个别输入变量扰动对预测结果的干扰，提高了用户赔付风险评估的准确性以及稳定性，以便业务人员针对待估用户指定合理且可靠的投保与理赔方案。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种理赔风险评估系统的架构示意图；

图2为本申请实施例提供的一种服务器硬件结构图；

图3为本申请实施例提供的一种理赔风险评估方法的流程图；

图4为本申请实施例提供的另一种理赔风险评估方法的部分流程图；

图5为本申请实施例提供的又一种理赔风险评估方法的部分流程图；

图6为本申请实施例提供的一种理赔风险评估方法的系统流程示意图；

图7为本申请实施例提供的一种理赔风险评估装置的结构框图；

图8为本申请实施例提供的另一种理赔风险评估装置的部分结构框图；

图9为本申请实施例提供的又一种理赔风险评估装置的部分结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

结合背景技术部分的分析，传统预测模型的输入多选用车辆相关的变量，很少考虑与车主自身及其行为相关的影响理赔风险的因素，即从人因子，即便考虑也仅仅是性别、年龄等一些基本特征，对车主的刻画很少，导致得到的预测赔付率的精准度较低，并不能满足如今大部分出险由人引起的场景需要。而且，传统预测模型仅依靠几个或十几个变量，抗干扰能力差，对获取的模型输入数据质量要求较高，使得模型应用有很大局限性。

随着大数据时代的到来和快速发展，各种各样的用户数据都可以用于转化、评估、体验用户车险赔付的风险，所以，申请人提出，除了传统预测模型输入的车辆和地区数据外，将利用金融数据、电商数据、通讯数据、社交数据等不同类型数据构成的大数据，实现车辆理赔风险的评估。

然而，在本行业中，受大数据发展的引导，通常只能想到结合车联网实现车险理赔风险的评估，而该车联网得到的数据通常是用户对车辆的驾驶行为数据，从而在驾驶行为分析研究的基础上，给出车险预测模型和UBI车险定价策略，并不会想到结合上述列举的如利用金融数据、电商数据、通讯数据、社交数据等与驾驶行为无关的数据，更何况如何将各种复杂异构的数据，整合在一起构建有效的预测模型也是本领域未曾研究的课题。

所以说，相对于现有技术利用传统预测模型评估理赔风险的方法，本申请提出的在预测模型中输入大量从人因子，如用户在移动社交移动软件上的各种线上线下行为数据，并使用多层网络模式，多种机器学习算法实现不同投保人的赔付率的预测的方案，具有突破性进步，其大大提高了用户赔付率预测准确性以及稳定性，同时避免了个别变量扰动对预测结果的影响，提高了预测模型的抗干扰能力，从而能够针对不同用户合理设定车险保费。

具体的，如图1所示，为本申请实施例提供的一种理赔风险评估系统的架构示意图，该系统可以包括：至少一个用户行为数据源11，以及服务器12，其中：

用户行为数据源11可以指用户行为数据的产生平台，如图1所示的银行平台、社交平台、第三方支付平台、交通管理平台、游戏平台、生活服务平台、教育平台等，但并不局限于图1示出的各平台。

可选的，在本申请中，银行平台产生的用户行为数据可以包括：用户在银行进行存取款、贷款/还贷、理财等银行业务产生的相关数据。

社交平台(如即时通信平台)产生的用户行为数据可以包括：用户使用社交软件产生的各种数据，如聊天内容、电子邮件内容、语音通话内容、微博空间发表内容、公众号文章阅读，或者是在社交软件中的点评内容等行为数据。

在实际应用中，由于“物以类聚，人以群分”，通常情况下，若该用户的用户群中好友经常谈论或邀约飙车，该用户发生车险的概率较高，理赔风险大；而若该用户所在用户群中的好友讨论的话题或者发表的评论内容，大多表示出应该遵守交通规则的含义，那么，该用户群中的各用户出车险的概率通常比较低，那么，该用户的理赔风险就比较低。因此，本申请可以结合用户所在用户群中好友的行为特征，来预测该用户的理赔风险。

第三方支付平台产生的用户行为数据可以包括：用户进行电子商务交易过程中产生的行为数据，以及在第三方支付平台进行存取款、还款等相关业务所产生的行为数据等等，如购物支付、票务订购并支付、酒店预订支付等等。

交通管理平台产生的用户行为数据可以包括：用户的违法、违纪等交通业务相关的行为数据，例如用户行驶违规记录，尤其是酒驾、醉驾等记录。

在本申请中，该交通管理平台产生的用户的行为数据，与车险发生概率有很大关系，根据需要适当增大这类行为特征的权重，但并不局限于此。

游戏平台产生的用户行为数据可以包括：用户在游戏内进行外挂、聊天等电子游戏业务过程中产生的行为数据，如用户在游戏平台中的虚拟账号的角色装扮、道具购买等等。

生活服务平台产生的用户行为数据可以包括：用户缴纳水电费、燃气费、物业费、垃圾处理费等与城市服务业务相关的行为数据，以及用户申请家政服务、美容保健等相关业务过程中产生的行为数据等。

教育平台产生的用户行为数据可以包括：用户利用各种教育应用程序进行线上读书、公开课学习、职业考试练习、技能培训、翻译软件使用等过程中产生的相应行为数据。

需要说明的是，上述用户行为数据源的形式仅是可选的，本申请实施例可结合实际情况扩充或替换其他形式的用户行为数据源，本申请在此不再一一详述。

另外，本申请上述用户行为数据源所产生的用户行为数据可以是，用户使用客户端与用户行为数据源进行线上交互产生的，如社交平台、第三方支付平台等产生的线上数据。当然，上述用户行为数据源所产生的用户行为数据也可以是，用户线下在用户行为数据源相应的业务机构产生的用户行为数据，如用户在生活服务机构，线下缴纳水电费、燃气费等行为，并由该生活服务机构将对应的用户行为数据上传到生活服务平台的服务端；或者用户到交通管理机构缴纳罚款、学习交通规则等行为，再由交通管理机构将对应的用户行为数据上传到交通管理服务平台的服务端；或者是用户在美容保健机构或者家政服务机构等线下机构，进行相应业务过程中产生的行为数据，再上传到对应的服务平台的服务端等等。

由此可见，本申请系统中的用户行为数据源可以包括提供用户线上数据和/或线下数据的数据源，本申请对该用户行为数据源的形式以及类型不作限定。

可选的，在本申请实施例中，不同形式的用户行为数据源可能相集成，如社交平台上可以集成第三方支付功能，及城市服务功能等平台入口。当然，不同形式的用户行为数据源也可以是相互独立的，通过各自的接口与服务器12相通信，本申请对各用户行为数据源之间的关系不作限定。

服务器12为本申请实施例在网络侧设置的进行信息处理的服务设备，服务器12可以是由单台服务器实现，也可能是由多台服务器组成的服务器群组实现。在实际应用中，服务器12可与各用户行为数据源相交互，监控各用户新产生的行为信息。

可选的，服务器12可以是某一用户行为数据源的平台所属的服务设备，如服务器12可以是社交平台中进行通信数据处理的服务设备，在实际应用中，该服务器12可以收集所属平台产生的用户行为数据，并通过其他用户行为数据源(其他用户行为数据源不包括服务器所属的用户行为数据源)的接口，监控其他用户行为数据源产生的用户行为数据等等。

可选的，服务器12也可以是与各用户行为数据源相独立，通过所属用户行为数据源的接口，监控所述用户行为数据源产生的用户行为数据。

如图1所示系统，服务器12可通过各形式的用户行为数据源获取用户的行为数据，当获取到用户新的行为数据时，服务器可根据所述行为数据，在线实时的调整该用户的理赔风险系数，从而提高保险企业对该用户理赔风险评估的准确性。

需要注意的是，与现有常规的理赔风险评估方案不同的是，本申请实施例提出的理赔风险评估方案增加了大量的从人因子，具体地说，在上述列举的大量从车因子的基础上，补充了通过上述各用户行为数据源获得的各种用户行为数据，从而使预测该用户理赔风险系统的变量成百上千，减小了个别变量扰动对预测模块的不利影响，从而提高了用户理赔风险评估的准确性以及可靠性，避免优质的车险用户为少数因恶劣的驾驶行为造成高额理赔的用户买单，使得投保人的车险保费设定合理，适合保险行业稳定长远发展。

可选的，参照图2所示，为本申请实施例提供的一种服务器的硬件结构示意图，该服务器可以包括：通信端口21、存储器22、处理器23以及通信总线24，其中，通信端口21、存储器22以及处理器23可以通过通信总线24进行通信。

可选的，通信端口21可以为无线通信模块的接口以及有线通信模块的接口，如USB接口，GSM模块的接口、WIFI模块的接口等。

存储器22可以存放处理器23执行的本申请提供的理赔风险评估方法的相关程序代码等信息，还可以缓存该程序执行过程中产生的各种数据，本申请对其不作限定；其中，程序代码包括多个计算机操作指令。

在本申请中，存储器4可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器23可以执行存储器22存储的程序，本申请中，该处理器23可以是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

图3为本申请实施例提供的一种理赔风险评估方法的流程图，本实施例从服务器角度描述该方法实现过程，具体可以包括以下步骤：

步骤S301，通过多个用户行为数据源，获取待估用户的行为数据；

在本申请中，当某用户咨询对其车辆缴纳保险情况时，业务人员可以在客户端输入该用户即待估用户的用户标识(如用户账号、用户身份证号、用户ID等)，并通过该客户端向服务器发起投保请求，如作业人员可以进入保险专用的客户端的操作界面，输入待估用户的用户标识，点击确认，生成针对该待估用户的投保请求，并发送至服务器，本申请对投保请求的生成及其发送方式不做限定。

服务器接收到客户端发送的针对待估用户的投保请求后，可利用该待估用户的用户标识，通过图1所示各形式的用户行为数据源，获取待估用户的行为数据，当各用户行为数据源产生该待估用户的新的行为数据时，服务器可基于用户行为数据源的主动上报，或者服务器对用户行为数据源的自动查询，获取到新产生的待估用户的行为数据。

其中，所获取到的一条行为数据，通常是一个用户进行一次操作行为所产生的数据，在本申请中，待估用户的行为数据中可以包括进行本次操作行为的待估用户的用户标识以及该操作行为的描述内容等。

步骤S302，对该待估用户的行为数据进行预处理，得到第一数量维度的初始特征数据；

如上述分析，服务器获得的待估用户的不同类型不同维度的行为数据后，可以进行清洗、整合、结构规范化等预处理，形成预测模型的初始特征数据，本申请对多来源的行为数据的预处理方法不作限定。

可选的，对于获得的多来源的行为数据，服务器可以采用剔除异常数据，去重，奇异点过滤、缺失值补全等清洗方式进行处理，从而得到第一数量维度的初始特征数据，之后，还可以根据数据来源及数据类型特点，将第一数量维度的初始特征数据划分成多个类型的数据集，如基本信息构成的数据集、社交互动相关的初始特征数据构成的数据集、金融理财相关的初始特征数据构成的数据集等等，并将归类整理后的多个数据集写入数据库，以便后续需要时及时调度。

在实际应用中，随着时间的推移，待估用户的行为数据会不断更新，在此期间，可以按照上述方式对数据库中的初始特征数据进行同步更新，从而保证据此得到的预测赔付率的准确性

步骤S303，利用特征选择算法，对第一数量维度的初始特征数据进行特征筛选，得到第二数量维度的特征变量；

在本申请中，对于获得的数量庞大的初始特征数据，相互之间可能会存在相关性，本申请可以采用特征选择算法，还可以结合图计算等机器学习算法，对初始特征数据进行进一步加工筛选，衍生和挖掘能表征用户的稳定性特征，即得到的第二数量维度的特征变量，其中，关于对第一数量维度的初始特征数据的特征筛选，得到表征待估用户稳定性特征的实现方法，可以参照下文实施例描述，但并不局限于本申请描述的实现方法。

其中，第二数量通常不大于第一数量，在本实施例实际应用中，对第一数量维度的初始特征数据进行的特征筛选，通常会存在降维情况，也就是说，通常情况下，第二数量小于第一数量，且所得特征变量的总数量小于初始特征数据的总数量，但并不局限于此。

步骤S304，将第二数量维度的特征变量划分成不同类型的第三数量特征集；

在本申请中，可以采用分群分层构建多个子模型，每一个子模型对应特征变量的一种类型，也就是说，子模型是由样本用户相应类型的特征变量训练得到，所以，在预测待估用户的赔付率前，可以对模型输入变量即第二数量维度的特征变量，按照特征类型划分成不同类型的第三数量特征集，即一种类型的特征变量可以组成一个数据集，从而使得到的第三数量的特征集的类型不同，其中，每个类型的特征集通常包含有多个维度的特征变量。

可选的，对于特征变量的类型的确定，可以根据数据来源以及业务特点确定，本申请并不限定其具体确定方式。例如对于利用来自社交平台、游戏平台等用户之间能够互动的平台的行为数据得到的特征变量，可以确定为社交互动类型的数据集；对于利用来自第三方支付平台、银行平台等金融理财类的平台的行为数据得到的特征变量，可以确定为金融理财类型的数据集；对于利用来自交通管理平台的行为数据得到的特征变量，可以确定为交通类型的数据集，还可以将通过各应用平台采集到的关于用户自身基本信息的数据的处理得到的特征变量，确定为基本信息类型的数据集等等，本申请在此不再一一详述。

作为本申请另一实施例，在执行步骤S304之前，若已经将得到的第一数量维度的初始特征数据划分成不同类型的多个数据集(通常为第三数量的数据集)，经过对这些初始特征数据的特征筛选后，可能得到由特征变量构成的相应数量类型的特征集，即直接得到不同类型的第三数量的特征集，每一类型的特征集通常包含多个维度的特征变量，该实施例中可以直接执行步骤S305。

其中，第三数量的具体数值可以根据得到的第一数量的初始特征数据的类型，或者是第二数量的特征变量的类型确定，而第二数量的具体数值可以根据第一数量的初始特征数据的内容关联性确定，通常情况下，第三数量通常远小于第二数量，本申请对上述第一数量、第二数量以及第三数量的具体数值不作限定。

步骤S305，对第三数量特征集各自包含的特征变量进行模型训练，获得相应的预测赔付率；

基于上述描述，本申请实施例得到的第三数量特征集的类型不同，即同一类型的特征变量组成一个特征集，在评估待估用户的理赔风险之前，可以按照上述方式获得多个样本用户的同一类型的特征集，从而利用机器学习回归算法进行模型训练，得到对于该类型的子模型。其中，对于不同类型的特征集可以采用同一种机器学习回归算法进行模型训练，也可以采用不同种机器学习回归算法，本申请对此不作限定，关于各子模型的训练过程可以参照下面实施例的描述，本实施例在此不再详述。

按照上述方法利用待估用户的行为数据，得到不同类型的第三数量特征集后，对于任一类型的特征集，可以利用其包含的特征变量对相应的子模型进行训练，从而得到相应的预测赔付率，如此计算，本实施例可以得到第三数量预测赔付率，即每一个特征集对应一个预测赔付率。

步骤S306，对该第三数量预测赔付率进行数学变换，得到第三数量目标输入变量；

对于得到的第三数量预测赔付率，本申请可以利用基础赔付率进行数学变换处理，从而得到第三数量目标输入变量，即确定用于预测待估用户目标赔付率的预测模型的第三数量输入变量。其中，基础赔付率可以利用多个样本用户的赔付总金额以及总保费计算得到，本申请对利用该基础赔付率对第三数量预测赔付率的变换处理方法不作限定。

步骤S307，利用线性回归算法对该第三数量目标输入变量进行模型训练，得到待估用户的目标赔付率；

需要说明的是，本申请对利用线性回归算法，计算待估用户的目标赔付率的实现方法可以参照下文实施例对应部分的描述，但并不局限于本申请描述的实现方法。

可选的，若本申请实施例是由服务器实现上述理赔风险评估方法，在其得到待估用户的目标赔付率后，可以将其反馈至发送投保请求的客户端输出，以供业务员参考；若本实施例是由终端客户端实现上述理赔风险评估方法，客户端得到待估用户的目标赔付率后，可以直接输出该目标赔付率，但并不局限于此。

由此可见，在本申请中，将通过多个用户行为数据源，获得待估用户不同类型的行为数据，也就是说，在预测待估用户理赔风险时，充分考虑了车主自身及其行为相关对理赔风险的影响因素，作为预测用户车险赔付率的从人因子，从而使预测模型具有大量包含不同内容的输入变量，大大提高了用户覆盖率以及数据来源可靠性，且采用多层分群构建模型的方法，利用多个机器学习算法，来预测待估用户的理赔风险，大大提高了预测精确度，减少了个别变量扰动对预测结果的不利影响，降低了对数据源的质量要求。

可选的，本申请可以采用如图4所示的方法，实现对用户自身及好友特征的提取，即待估用户的多个维度的特征变量的提取，但并不局限于本实施描述的这种实现方法，如图4所示，为本申请实施例提供的另一种理赔风险评估方法的部分流程图，该方法主要对上述步骤S303的实现过程进行描述，关于其他部分的实现可以参照上文实施例对应部分的描述，则该方法可以包括：

步骤S401，对获得的第一数量维度的初始特征数据进行特征迭代，筛选出满足预设要求的初始特征构成候选特征子集；

可选的，本申请可以采用相关系数、信息增益、独立型检验等过滤式特征选择算法，筛选出显著性较强的特征构成候选特征子集。可见，上述预设要求是指显著性较强的初始特征，本申请对其具体内容不作限定，可以根据实际需要确定，如本申请需要预测用户的赔付率，该预设要求可以是指能够明显影响用户的赔付率的初始特征等等。

可选的，本实施例可以计算每一个维度的初始特征的权重，由该权重代表该维度的初始特征相对于用户的赔付率的重要性，然后按照该权重进行排序，从而选择大于第一预设阈值的权重对应的初始特征构成候选特征子集。

需要说明的是，本申请可以将计算得到的特征权重作为其特征值，本申请对计算特征权重的方法不作限定。

步骤S402，利用候选特征子集包含的不同类型的初始特征数据，生成相应的第一衍生特征数据，执行步骤S405；

本申请可以采用主成份分析、聚类后分类别、业务考虑等算法，对候选特征子集中的特征进行处理，构造相应的第一衍生特征数据。例如，对于包含支付次数、支付金额等类型特征的候选特征子集，可以按照上述方式构造支付金额/支付次数这一新的特征作为第一衍生特征数据，该第一衍生特征数据可以反映次单价，即每次支付多少钱。

由此可见，第一衍生特征数据通常是利用候选特征子集中相关联的多个特征数据生成的，具体得到的第一衍生特征数据的内容和数量，可以根据当前得到的候选特征子集中包含的特征确定，本申请对此不作限定。

步骤S403，利用候选特征子集包含的初始特征数据，确定待估用户所在的至少一个用户群及其对应的初始特征数据；

可选的，本申请可以采用图计算、文本挖掘等机器学习算法，对候选特征子集中的初始特征数据进行处理，确定这些初始特征三个月后所属的至少一个主题，也就是对候选特征子集中的各初始特征数据进行分类，确定待估用户所在的至少一个用户群(或者称为社区、圈子等)，本申请对上述机器学习算法的处理过程不作详述。

其中，每一个用户群中的用户具有相同或相似的初始特征数据，且不同用户群的初始特征数据的特点通常不同，如游戏用户群、金融理财用户群、娱乐用户群、职业考试用户群等等。

需要说明的是，该步骤S403与上述步骤S402并不存在先后顺序，两者可以独立实现，本实施例仅为了方便描述进行的排序。

步骤S404，根据待估用户与不同用户群中各好友之间的亲密值，以及对应的好友特征变量，获得对应的好友衍生特征数据；

对于待估用户所在的任意一个用户群中的好友，可以通过获取待估用户与好友之间的互动数据，该用户的用户群与好友用户群的重合度等信息，计算待估用户与该用户群中各好友的亲密值，按照亲密值由大到小的顺序，选择前n个好友，并获得这n个好友的好友特征值，以便计算对应好友的衍生特征值。

可选的，本申请可以利用如下公式(1)所示的函数，计算得到该待估用户的好友特征值，但并不局限于公式(1)所示的计算方法。

v`＝f((a₁,a₂,...,a_i,...,a_n),(v₁,v₂,...,v_i,...,v_n)) (1)

上述公式(1)中，v_i是选择的n个好友中第i个好友的特征变量，a_i是第i个好友与用户的亲密值，v`是用户的好友特征的衍生特征数据，f为计算，具体可以是亲密度排名前n个好友的特征变量与对应亲密值乘积的平均值，本实施例可以将计算得到的该平均值作为该待估用户的好友衍生特征数据。

步骤S405，判断当前特征迭代次数是否达到第一阈值；如果否，返回步骤S401；如果是，进入步骤S406；

在本申请中，按照上述方式得到待估用户的衍生特征数据和/或好友的衍生特征数据后，可以按照上述特征迭代筛选方法，重新对上述候选特征子集中的特征进行处理，得到新的候选特征子集，并继续按照上述步骤S403和步骤S404描述的方法，对新的候选特征子集进行处理，直至无法得到衍生特征或者得到预设数量的衍生特征，或者特征迭代次数达到预设次数等等，本申请对特征迭代的停止条件不作限定，本实施例在此仅以预设特征迭代次数为例进行说明。

其中，上述第一阈值通常比较小，如2等，本申请对该第一阈值的数值不作限定。

步骤S406，利用得到的待估用户与好友的初始特征数据以及衍生特征数据，确定第二数量维度的特征变量。

综上，本申请可以结合特征选择等算法，对获得的待估用户的初始特征数据作进一步筛选，得到表征用户的稳定性特征数据实现模型训练，大大提高了预测待估用户的理赔风险的预测效率以及准确性，而且，由于本申请在确定用户赔付率预测子模型的输入变量，不仅考虑了用户自身的特征，同时还考虑了用户的好友以及所处用户群的特征，提高了数据源的覆盖面以及可靠性，使得用于模型训练的特征变量成百上千，避免了个别变量扰动对赔付率预测结果的影响，进而提高了模型预测结果的可靠性。

基于上述实施例对获取待估用户的特征变量方案的描述，在实际应用中，用户A希望为其购买的车辆办理保险，保险公司将会预测该用户A的理赔风险，从而为该用户A制定合理的投保与理赔方案。

具体的，保险公司通过客户端向服务器发起针对该用户A的投保请求，获得用户A的学历、职业等基本属性信息；邮件、微博空间发表、语音通话等社交互动行为数据；驾驶年限、驾驶行程以及违章记录等交通行为数据；理财、购物、金融等经济行为数据；参加的职业考试练习、技能培训、公开课等教育行为数据，以及线下穿戴设备提供的体检记录、运动记录等行为数据。

例如，用户A为大学毕业、目前是一名男教师；具有5年驾龄，共违章15次，曾自驾到多个城市，驾驶速度xx；邮件内容大部分是与其教育相关的内容，微博空间发表的多是与教育、极限运动、车辆性能、旅游、聚餐等相关的内容，曾参加过户外生存等技能培训，以及与专业相关的考试等，每次超市消费xx金额，酒店消费次数以及xxx金额，购买xx理财产品，平时喜欢玩xx游戏，在游戏中出现xxx等不好言论等等。

按照上述行为数据处理方法，对其进行预处理得到初始特征数据后，可以按照所得到的初始特征数据的类型，将其划分成社交互动、金融理财、交通、教育等多个维度，之后，对于每一个维度的初始特征数据，可以筛选出显著性较强的特征数据，如对于社交互动来说，可以获取文本聊天、语音消息、视频通话、评论点赞、问答互动等维度的内容数据；对于交通来说，可以获取驾驶年龄、违章次数、自驾经历、驾驶速度、驾驶状态等相关内容数据等等。由此可见，本实施例将筛选能够表征各类型特点的初始特征数据，具体筛选方法不作限定。

可选的，本实施例还可以利用同一类型的初始特征数据，计算得到新的特征数据即衍生特征数据，如利用驾驶年龄、违章次数，计算用户A的年/月违章频率；利用统计得到的消费次数以及每次消费金额，计算每次平均消费，以及月消费频率等，本实施例在此不再一一列举。

另外，本实施例还可以利用图计算等算法，对得到的大量初始特征数据进行计算，也就是说，利用初始特征数据之间的关联性，确定具有相同兴趣的群体，从而结合用户A的各类好友的行为，辅助预测用户A的理赔风险。基于上述行为数据，本实施例可以确定用户A身边喜欢旅游的群体、喜欢极限运动的群体、喜欢xx游戏的群体、喜欢吃的群体等等。之后，可以按照划分的不同群体的兴趣，获得该群体中用户A及其好友的相关特征数据，进而得到相应的衍生特征数据。比如旅游群体中好友的自驾记录、违章记录、常规驾驶状态等，喜欢xx游戏的群体中好友的操作行为是否规范、是否出现不良言论等等。

可选的，在本实施例中，对于任意类型的数据，可以预设与该类型特点正相关的初始特征数据记为1，与该类型特点负相关的初始特征数据记为0，如对于交通类型的数据，可以将与其相关的驾驶记录、违规次数、常规驾驶状态等与车辆驾驶相关的特征数据记为1，而将经过的交通灯数量、接收到的交通规则通知等与车辆驾驶无关或关系不大的特征数据记为0，从而得到由0和1组成的特征向量，之后，可以利用机器学习算法，对按照这种方式得到的多个特征向量进行计算，得到所需的特征变量。其中，对于其他类型的数据，本申请也可以根据该类型的数据内容与驾驶风险的关联程度，采用不同的数值进行表示，本申请对数值表示各类型的特征数据的关系不作限定。

经上述分析，在本实施例中，用户A在各领域出现不良记录很少甚至没有，尤其是在车辆驾驶中违规行驶记录很少，而且，若其所在的各个用户群的好友的不良记录相对也比较低，驾驶违规记录也很低，可以认为用户A发生车辆事故的概率较低，可以倾向方案1(可以是赔付率相对较高的方案)。若所得结论与上相反，可以认为该用户A发生车辆事故的概率相对较高，为了保证保险公司利益，可以倾向方案2(可以是赔付率相对较低的方案)。

可见，本实施例采用这种方式，即结合车主自身及其好友的行为数据，来衡量该用户在今后驾驶过程中出险概率，即预测用户理赔风险，对于预测得到的出险概率较高的用户，为了维持保险公司的利益，可以给出赔付率相对较低的投保与理赔方案；反之，对于预测得到的出险概率较低的用户，可以给出赔付率相对较高的投保与理赔方案，吸引用户投保，避免这类用户受出险概率高的用户的牵累，而无法得到高额赔付率，降低这类用户投保体验。

为了更清楚说明本申请提供的利用分群分层构建的多个子模型，构建总预测模型，预测用户赔付率的实现方案，本申请在此以其中的某一个子模型的训练过程为例进行详细说明，关于其他子模型的训练过程类似，本申请对此不再一一详述。在本申请中，每一个子模型可以是由多来源的行为数据处理得到的一种类型的特征变量，按照一种机器学习算法计算得到的，其中，各类型的特征变量均可以包括多个维度的初始特征数据，其计算所用的机器学习算法可以相同，也可以不同。

如图5所示，为本申请实施例提供的又一种理赔风险评估方法的部分流程图，如上所述，本实施例主要对赔付率预测模型的训练过程进行描述，且由于各用户的样本数据的模型训练过程相同，本实施例在此仅对利用样本用户的社交互动类的行为数据，训练得到相应的子模型的训练过程进行说明，具体可以包括以下步骤：

步骤S501，获得样本用户的行为数据以及实际赔付率，确定该实际赔付率为目标变量；

在本申请中，可以选择多个样本用户，利用各样本用户的用户ID、保费、赔付金额以及各行为数据等信息，作为对应的样本数据，以实现车险赔付率的预测模型的训练。

其中，本实施例可以利用该样本数据中的保费和赔付金额，计算样本用户的实际赔付率，即实际赔付率＝赔付金额/保费，并将计算得到的实际赔付率作为模型训练的目标变量。

保费即为保险费，是投保人为取的保险保障，按保险合同约定向保险人支付的费用，一般采用满期保费，在实际应用中，随用户出险情况的变化，其保费和赔付金额是动态变化的，本申请对两者数值大小不作限定。

步骤S502，基于数据类型特点以及目标变量，从样本用户的行为数据中提取多个维度的特征变量；

在实际应用中，对于每一类型的行为数据或初始特征数据，在训练对应的子模型过程中，可以利用该类型的特点以及目标变量，提取所需的多维度的特征变量。以社交互动类型的行为数据或初始特征数据为例，本申请实施例可以根据社交互动特点以及目标变量，提取与该目标变量正相关的多个维度的特征变量。比如，可以从获取的社交互动类型的文本聊天、语音消息、视频通话、图片发表、评论点赞、问答互动等多个维度的行为数据中，提取与样本用户的赔付率相关(如与车辆驾驶相关)的特征数据。其中，本实施例中的数据类型特点可以是将行为数据或初始特征数据划分成的不同类型的特点，如划分成社交互动、基本信息、金融理财、交通等多个类型后，将各类型的属性特点作为相应类型的特点。可见，步骤S502中的数类型特点内容主要基于本次对哪个类型的行为数据进行模型训练确定，本申请对其包含的内容不作限定。

可选的，在本实施例中，可以将基于不同数据类型特点以及目标变量，提取的多个维度的特征变量组成一个特征集，即与该数据类型对应类型的数据集，所以，对于每一个样本用户的样本数据，通常可以得到对应不同类型的第三数量数据集，每一个数据集包含的特征变量可以训练得到一个预测子模型，具体训练过程如下，需要说明的是，关于子模型的训练过程并不局限于本实施例描述的决策树模型训练方式。

步骤S503，对提取的多个维度的特征变量进行N次可放回抽样，并根据每次抽样所得特征变量构建决策树；

在本实施例中，针对每一个样本用户的样本数据，按照上述方式得到同一类型的多个维度的特征变量后，可以对获得的多个维度的特征变量进行可放回抽样时，可以每次随机抽取m_i个特征变量，来构建决策树，从而将提取的用户及好友的特征变量变换为多颗决策树，假设为T₁，T₂，…，T_N，第i颗决策树T_i有k_i个节点，第i颗决策树上第j个节点的赔付率PT_ij可以定义为：

PT_ij＝Lost_ij/Premiun_ij,i∈(1,N)，j∈(1,i_k) (2)

其中，Lost_ij表示落在第i颗决策树上第j个节点的样本用户的赔付金额总和，Premiun_ij表示落在第i颗决策树上第j个节点的样本用户的保费总和。

决策树是一种预测模型，他代表的是对象属性与对象值之间的一种映射关系。其通常是一种树形结构，树中每个内部节点表示某个对象，而每个分叉路径则代表某个可能的属性值，每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

基于此，在本实施例中，将以可放回抽样得到的用户自身及好友的特征作为节点，利用属于该节点的用户的赔付金额总和以及保费总和，计算得到对应节点的赔付率。

步骤S504，利用样本用户在各决策树上命中节点的赔付率以及目标变量，确定初始特征向量；

结合上述描述，本实施例构建了N颗决策树，由于对于某个样本用户来说，其在每颗决策树中只会命中其中一个节点，所以，将得到了N个赔付率即PT₁，PT₂，…，PT_N，结合目标变量Loss_Ratio，可以生成一个N+1维的特征向量，作为该社交互动类型行为数据对应的预测子模型训练的初始特征向量，(PT₁，PT₂，…，PT_N，Loss_Ratio)。

步骤S505，计算多个样本用户在各决策树上命中节点的赔付总金额以及总保费，确定这多个样本用户的基础赔付率；

在本申请实施例中，对于每一个样本用户的样本数据可以按照上述方式进行处理，并构建相应的多个决策树，从而得到每一个样本用户在对应的各决策树中命中节点的赔付金额总和以及保费总和，之后，对多个样本用户的赔付金额总和求和，得到样本用户在决策树上命中节点的赔付总金额，同理，对多个样本用户的保费总和求和，得到样本用户在决策树上命中节点的总保费，之后，可以对得到的赔付总金额和总保费进行计算，得到样本用户的集成赔付率。

步骤S506，利用该基础赔付率，对初始特征向量中的赔付率进行数学变换处理，得到N个第一输入变量；

可选的，对于上述得到的初始特征向量中的各特征变量PT₁，PT₂，…，PT_N，可以利用以下公式(3)进行数学变换，已得到预测子模型的N个输入变量PNT_i，但并不局限于本实施例描述的这种数学变换方式。

PNT_i＝ln(PT_i/P₀) (3)

公式(3)中，P₀表示样本用户的基础赔付率，PT_i表示某一样本用户在第i颗决策树上命中节点的赔付率，ln()表示对数函数，i＝1，2，…，N。

由此可见，经过上述数学变换后，将由初始特征向量得到一个新的N+1维的特征向量，即子模型的输入向量(PNT₁，PNT₂，…，PNT_N，Loss_Ratio)，其中，PNT₁，PNT₂，…，PNT_N表示该子模型的输入变量，Loss_Ratio为该子模型的目标变量，记为该样本用户的实际赔付率。

步骤S507，利用机器学习算法以及目标变量，对这N个第一输入变量进行模型训练，得到相应的预测赔付率。

可选的，在本实施例中，对于任一个样本用户的行为数据，得到子模型的N个第一输入变量以及该样本用户的目标变量后，可以采用广义线性回归算法、GBDT(GradientBoosting Decision Tree)算法、深度学习算法等机器学习算法，对N个第一输入变量进行模型训练，得到该样本用户的一个预测赔付率。本实施例对本次模型训练选用的机器学习算法不作限定，且对于按照上述方法得到该样本用户的对应不同类型数据的预测赔付率，模型训练过程中采用的机器学习算法可以相同，也可以不同，提高了模型构建机制的灵活性。

在本申请实施例中，如上述描述，对于每一个样本用户的样本数据(即该样本用户的行为数据)，通常其包括多个类型的数据，每一个类型的数据按照上述处理方法，可以得到相应的预测赔付率，这样，每一个样板用户的样本数据可以得到多个预测赔付率。

可选的，本申请实施例在得到多个样本用户的预测赔付率后，可以基于其与相应目标变量即相应样本用户的实际赔付率的比较结果，判断所得预测赔付率是否准确，若两者差值大于一定阈值，说明所得预测赔付率不够准确，可以继续进行模型训练，以得到准确可靠的预测赔付率。

所以，为了提高基于每一类型行为数据得到的预测赔付率的准确性，本申请实施例可以在上述得到的某一个样本用户的预测赔付率及其对应的子模型后，对于其他样本用户的行为数据的模型训练，可以此基础上进行，从而通过多次模型迭代，得到该子模型的最终预测赔付率，用于确定用户的目标赔付率。

步骤S508，对得到的N个预测赔付率进行数学变换处理，确定N个第二输入变量；

本申请实施例得到样本用户的多个子模型(对应多个类型的行为数据)的预测赔付率，即P₁，P₂，…，P_n，之后，本申请可以采样上述数学变换方式，来得到总模型的第二输入变量PN_i，即利用公式(4)对得到的各子模型的预测赔付率进行数学变换处理。

PN_i＝ln(P_i/P₀) (4)

可见，经过上述数学变换处理后，本实施例可以得到一个新的n+1维的特征向量，即总模型的目标特征向量(PN₁，PN₂，…，PN_n，Loss_Ratio)。其中，n表示子模型的数量，该目标特征向量中的PN₁，PN₂，…，PN_n为用于预测待估用户目标赔付率的预测模型的第二输入变量。

步骤S509，利用线性回归算法，对这N个第二输入变量进行模型训练，得到目标赔付率。

其中，线性回归算法可以采用以下公式(5)，但并不局限于该公式。

上述公式(5)中，P_总表示用来预测样本用户的目标赔付率，β_i是利用线性回归算法计算得到的模型参数，可以根据对应子模型的预测赔付率与目标变量的关系确定，本申请对其具体数值不作限定，β₀是个常量；exp()表示指数函数。

可选的，在本申请实际应用中，可以在得到某一样本用户的多个预测赔付率之后，直接训练得到对应的该样本用户的目标赔付率，再通过该目标赔付率与该样本用户的实际赔付率的对比，判断利用该样本用户的行为数据训练得到的预测模型是否可靠，若两者差值大于一定阈值，可以认为该预测模型不太可靠，可以在此预测模型的基础上，继续利用其它样本用户的特征变量进行模型训练，直至得到可靠的预测模型。

当然，本申请实施例可以同时对多个样本用户的行为数据按照上述方法进行处理，得到各样本用户的目标赔付率，从而选择所得目标赔付率与相应样本用户的实际赔付率的差值在一定阈值内，该样本用户的目标赔付率得到的预测模型，实现后续其他待估用户的理赔风险的预测。

综上，本申请实施例在获得用来预测待估用户的理赔风险的预测模型时，采用分群分业务分层构建多个子模型，也就是说，利用样本用户每一类的行为数据，训练得到对应的一个子模型，再利用这多个子模型预测得到的预测赔付率作为输入变量，利用机器学习算法继续进行模型训练，最终得到预测待估用户的理赔风险得到目标预测模型，由于该目标预测模型的输入变量引入了大量用户自身及其好友的行为数据，不仅提高了目标预测模型预测赔付率的抗干扰能力，降低了对输入数据质量的要求，而且，与仅考虑车辆自身数据得到的预测模型相比，大大提高了预测结果的准确性以及可靠性。

基于上述描述，当需要预测某一待估用户的理赔风险时，可以利用上述训练得到的可靠的预测模型实现，也就是说，在得到待估用户的不同类型的特征变量之后，可以利用上述训练得到的对应类型的决策树模型，得到相应的多个预测赔付率，之后，利用上述训练得到的目标预测模型以及这多个预测赔付率，得到待估用户的目标赔付率，具体实现过程可以参照上述图3对应的实施例相应步骤的描述。

结合上述对本申请提供理赔风险评估方案的分析，以及图6所示该方案的系统流程图，在实际应用中，当待估用户需要对其车辆投保时，保险公司业务人员会根据用户的需求，利用本地电子设备中的专业的客户端，向服务器发送针对待估用户的投保请求，该投保请求中可以包括该待估用户的用户标识等属性信息，以便服务器据此通过多个用户行为数据源，获得该用户的多种行为数据，如获得如图6所示的多种线上数据以及多种线下场景数据，之后，按照上述方法实施例描述的数据处理方法，对待估用户的多种类型的不同维度的行为数据进行清洗、整合以及规范化的预处理后，可以利用图计算、文本挖掘等算法，得到多种类型的特征变量，如图6所示的社交互动、兴趣爱好、金融理财、身体健康、情感倾向、人格特征等多种类型，每种类型特征变量可以包括多个维度的特征数据，本实施例可以将这多种类型的特征变量，作为预先训练得到的相应类型的子模型(即如图6所示的基础模型、社交互动模型、兴趣爱好模型、健康模型、性格模型等等)的输入变量，重新训练得到待估用户的预测赔付率，进而将得到的多个预测赔付率作为目标预测模型(即如图6所示的总模型)的输入变量，训练得到待估用户的目标赔付率，之后，可以将该预测结果即目标赔付率反馈至上述客户端输出，以便业务人员基于该待估用户的目标赔付率，判断该待估用户是否满足保险公司的投保要求，若满足，可以选择一种与该目标赔付率相对应的投保与理赔方案，不仅满足了待估用户的投保需求，且在一定程度上减少了保险企业的损失。

其中，在服务器得到待估用户的目标赔付率后，还可以直接从预设的多种投保与理赔方案中，选择至少一种与该目标赔付率对应的方案，从而将选择的投保与理赔方案直接发送至客户端显示，以供待估用户以及业人员查看。

由此可见，本申请将使用待估用户在移动社交软件上的各种线上线下行为数据，发现并表征用户的行为习惯，之后，通过预测模型映射出待估用户的赔付风险，由于本申请增大了预测模型的输入变量的种类及数量，大大提高了预测模型的抗干扰能力，以及用户预测赔付率的可靠性以及稳定性，帮助业务人员准确识别出优质客户，从而针对用户自身实际情况提供合理的投保与理赔方案，提高了用户投保体验，同时，对于识别出的劣质客户(可以是出险概率非常高的用户)，可以根据情况选择是否接受其投保，若接受，为了减少甚至避免公司损失，应该为其设置怎么的赔付率等等，有助于实现保险企业可靠运营。

参照图7所示，为本申请提供的一种理赔风险评估装置的结构框图，该装置可以应用于服务器，具体可以包括：

数据获取模块71，用于获取待估用户的行为数据；

结合上述方法实施例相应部分的描述，数据获取模块可以通过多个用户行为数据源，获得待估用户的多个维度的行为数据，具体可以是用户在移动社交软件上的各种线上线下数据。

例如：用户的基本信息(如姓名、性别、年龄、地区、学历、职业、民族、政治面貌等)，虚拟增值服务数据(如虚拟账号角色装扮、游戏道具购买、影视会员服务、云存储空间增值服务、音乐流量包等)，社交交互行为数据(如聊天、电子邮件、语音通话、微博空间发表、话题评论点评、公众号文章阅读等)、经济行为数据(如支付、理财、购物、金融等)，娱乐休闲行为数据(如视频点播、音乐播放、新闻阅读等)，教育行为数据(如线上读书、公开课学习、技能培训、翻译软件使用等)，其他互联网移动应用行为数据(如APP下载、搜索等)等等。

可选的，上述列举的各种线上数据可以通过用户手机、平板、或个人电脑上社交软件、游戏客户端、APP下载平台、理财平台、购物软件等，采集用户填写的资料或者软件主动上报获得，本申请对其具体实现过程不作详述。

对应线下数据，可以包括但并不局限于生活服务信息(如家政服务、城市服务、美容保健等)，穿戴设备数据(如医疗健康、运动等)，LBS地理位置数据(如导航、签到、专车等)，旅游出行数据(如票务订购、酒店预订等)。

可选的，上述线下关联场景数据可以通过购买，或与第三方机构合作、问卷调查等方式获得，本申请对此不作限定。

预处理模块72，用于对所述待估用户的行为数据进行预处理，得到第一数量维度的初始特征数据；

其中，关于获取的不同类型多个维度的行为数据的预处理实现方法，可以参照上述方法实施例相应部分的描述，本实施例在此不再详述。

特征处理模块73，用于利用特征选择算法，对所述第一数量维度的初始特征数据进行特征筛选，得到第二数量维度的特征变量；

可选的，参照图8，该特征处理模块73可以包括：

特征筛选单元731，用于对所述第一数量维度的初始特征数据进行特征迭代，筛选出满足预设要求的初始特征构成候选特征子集；

特征衍生单元732，用于利用对所述候选特征子集中的初始特征数据进行特征分类，生成相应的衍生特征数据，触发特征筛选单元继续进行特征迭代，直至特征迭代次数达到第一阈值；

由于衍生特征数据通常是利用同一类型的数据作进一步运算得到的，所以，本实施例可以根据各初始特征数据所属类型的特点，实现大量初始特征数据的分类分组，如初始特征数据包括社交互动产生的数据、金融理财过程中产生的数据、身体检查产生的数据、登录生活服务平台产生的数据等等，据此，可以将得到的大量初始特征数据划分成社交互动类型的数据、金融理财类型的数据、健康类型的数据、生活服务类型的数据等等，之后，再进一步利用同一类型数据中各数据之间的关联关系，生成相应的衍生特征数据。

基于此，如图8所示，上述特征衍生单元732可以包括：

第一生成单元7321，用于利用所述候选特征子集包含的不同类型的初始特征数据，生成相应的第一衍生特征数据；

在实际应用中，第一生成单元可以直接利用同一类型的不同维度的初始特征数据之间的关联关系，生成相应的第一衍生特征数据，如利用消费次数以及消费总金额，可以生成每次消费金额，即单次消费金额这一衍生特征数据。

用户群确定单元7322，用于利用所述候选特征子集包含的初始特征数据，确定待估用户所在的至少一个用户群及其对应的初始特征数据；

在本实施例中，可以利用图计算等算法，根据各初始特征数据之间的关联关系，确定具有相同兴趣爱好或具有相同特点的用户构成的用户群。比如，通过对初始特征数据内容的分析，若检测到有关自驾旅游相关的数据，可以将发表与此相关数据的用户及其好友组成一个用户群。需要说明的是，本申请对利用用户的行为数据，确定该用户所在社交圈或用户群的方法不做限定。

好友特征变量计算单元7323，用于根据待估用户与不同用户群中各好友之间的亲密值，以及对应的好友特征变量，获得对应的好友衍生特征数据，触发特征筛选单元继续进行特征迭代，直至特征迭代次数达到第一阈值；

特征变量确定单元733，用于利用候选特征子集中的初始特征数据以及生成的衍生特征数据，确定第二数量维度的特征变量。

分组模块74，用于将所述第二数量维度的特征变量划分成不同类型的第三数量特征集，每个类型的特征集包含有多个维度的特征变量，所述第三数量小于所述第二数量；

计算模块75，用于利用机器学习算法，对第三数量特征集各自包含的特征变量进行计算，确定所述待估用户的目标赔付率。

可选的，该计算模块75可以包括：

第一模型训练单元，用于对第三数量特征集各自包含的特征变量进行相应模型训练，得到第三数量预测赔付率；

其中，第一模型训练单元可以对预先利用样本用户的特征变量训练得到的模型进行计算，得到待估用户的第三数量预测赔付率。

第一计算单元，用于利用线性回归算法，对第三数量预测赔付率进行计算，获得待估用户的目标赔付率。

在本实施例中，得到的待估用户的目标赔付率可以作为预测待估用户理赔风险的参考标准，以及制定投保与理赔方案的依据。通常情况下，若待估用户的理赔风险较低，对其设定的目标赔付率越高，可以认为这类用户为优质用户。

进一步地，如图9所示，该第一模型训练单元可以包括：

抽样单元751，用于对第三数量特征集各自包含的特征变量进行可放回抽样；

决策树构建单元752，用于利用每次可放回抽样所得到的特征变量，构建对应的决策树；

第二计算单元753，用于计算待估用户在各决策树上命中节点的第一赔付率；

第一变换单元754，用于对计算得到的第四数量第一赔付率进行数学变换，确定第四数量第一输入变量；

第二模型训练单元755，用于利用机器学习算法对第四数量第一输入变量进行模型训练，得到相应的预测赔付率。

在本申请中，可以利用获取的多个样本用户在构建的多个决策树上命中节点的赔付总金额以及总保费，计算所述用户的基础赔付率，从而利用所述基础赔付率，对所述计算得到的多个第一赔付率进行数学变换，确定所述子模型的对应数量的输入变量，具体实现方法可以参照上述方法实施例相应部分的描述。

可选的，如图9所示，第一计算单元可以包括：

第二变换单元756，用于对第三数量预测赔付率进行数学变换，确定用于预测待估用户目标赔付率的预测模型的第三数量第二输入变量；

第三模型训练单元757，用于利用线性回归算法对第三数量输入变量进行模型训练，得到待估用户的目标赔付率。

其中，关于上述实施例中的模型训练过程以及赔付率的计算过程，可以参照上述方法实施例相应部分的描述，本实施例在此不再赘述。

作为本申请另一实施例，在上述实施例的基础上，该装置还可以包括：

投保与理赔方案确定模块，用于确定所述目标赔付率小于预设赔付率阈值，选择与所述目标赔付率对应的投保与理赔方案；

方案发送模块，用于将确定所述投保与理赔方案发送至客户端。

在实际应用中，业务人员可以根据客户端显示的该用户的赔付率，以及系统推荐的投保与理赔方案，给待估用户制定合理的保费，提高了用户投保体验。

综上，在本申请中，将通过多个用户行为数据源，获得待估用户自身及其好友的多方面的行为数据，生成预测模型的输入变量，大大提高了用户覆盖率以及数据来源可靠性，减少了个别变量扰动对预测结果的不利影响，降低了对数据源的质量要求，且由于本申请实施例采用多层分群构建预测模型的方法，利用多个机器学习算法，来预测用户的理赔风险，大大提高了预测精确度以及可靠性。

参照上图2所示的服务器的硬件示意图，该服务器可以包括：

通信端口21；

存储器22，用于实现如上述方法实施例描述的理赔风险评估方法的多个指令；

处理器23，用于加载并执行所述多个指令，包括：

获取待估用户的行为数据；

对待估用户的行为数据进行预处理，得到第一数量维度的初始特征数据；

利用特征选择算法，对第一数量维度的初始特征数据进行特征筛选，得到第二数量维度的特征变量，该第二数量不大于第一数量；

将所述第二数量维度的特征变量划分成不同类型的第三数量特征集，每个类型的特征集包含有多个维度的特征变量，所述第三数量小于所述第二数量；利用机器学习算法，对第三数量特征集各自包含的特征变量进行计算，确定待估用户的目标赔付率。

需要说明的是，关于处理器执行多个指令，实现理赔风险评估的详细过程可以参照上述方法实施例相应部分的描述，本实施例在此不再详述。

综上，本实施例提供的理赔风向评估方案，考虑到了待估用户自身及其好用的行为数据对理赔风险的影响，提高了用户预测赔付率的准确性以及稳定性，且由于本实施例使得预测模型的输入变量成千上万，降低了个别变量扰动对预测结果的干扰，且降低了对输入的数据质量的要求，满足了如今大多数车险是人为因素引起的情况需求。

最后，需要说明的是，关于上述各实施例中，诸如第一、第二等之类的关系术语仅仅用来将一个操作、单元或模块与另一个操作、单元或模块区分开来，而不一定要求或者暗示这些单元、操作或模块之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者系统中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置和服务器而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的核心思想或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种理赔风险评估方法，其特征在于，所述方法包括：

获取待估用户的行为数据；

对第三数量特征集各自包含的多个维度的特征变量进行可放回抽样；

利用每次可放回抽样所得到的特征变量，构建对应的决策树；

计算所述待估用户在各决策树上命中节点的第一赔付率；

对计算得到的第四数量第一赔付率进行数学变换，确定第四数量第一输入变量；

利用机器学习算法对所述第四数量第一输入变量的进行模型训练，得到相应的预测赔付率，进而得到第三数量预测赔付率；

利用线性回归算法，对所述第三数量预测赔付率进行计算，获得所述待估用户的目标赔付率。

2.根据权利要求1所述的方法，其特征在于，所述利用特征选择算法，对所述第一数量类型的初始特征数据进行特征筛选，得到第二数量类型的特征变量，包括：

对所述第一数量维度的初始特征数据进行特征迭代，筛选出满足预设要求的初始特征数据构成候选特征子集；

对所述候选特征子集中的初始特征数据进行特征分类，生成相应的衍生特征数据，对本次迭代后的初始特征数据继续进行特征迭代，直至特征迭代次数达到第一阈值；

利用所述候选特征子集中的初始特征数据以及生成的衍生特征数据，确定第二数量维度的特征变量。

3.根据权利要求1所述的方法，其特征在于，所述利用线性回归算法，对所述第三数量的预测赔付率进行计算，获得所述用户的目标赔付率，包括：

对所述第三数量预测赔付率进行数学变换，确定用于预测待估用户目标赔付率的预测模型的第三数量第二输入变量；

利用线性回归算法对所述第三数量输入变量进行模型训练，得到所述待估用户的目标赔付率。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述方法还包括：

确定所述目标赔付率小于预设赔付率阈值，选择与所述目标赔付率对应的投保与理赔方案；

将确定所述投保与理赔方案发送至客户端。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个样本用户在构建的各决策树上命中节点的赔付总金额以及总保费；

利用所述赔付总金额以及所述总保费，计算得到基础赔付率；

所述对计算得到的第四数量第一赔付率进行数学变换，确定第四数量第一输入变量，包括：

利用所述基础赔付率，对计算得到的第四数量第一赔付率进行数学变换，得到第四数量第一输入变量。

6.根据权利要求2所述的方法，其特征在于，所述对所述候选特征子集中的初始特征数据进行特征分类，生成相应的衍生特征数据，包括：

利用所述候选特征子集包含的不同类型的初始特征数据，生成相应的第一衍生特征数据；

利用所述候选特征子集包含的初始特征数据，确定所述待估用户所在的至少一个用户群及其对应的初始特征数据；

根据所述待估用户与不同用户群中各好友之间的亲密值，以及对应的好友特征变量，获得对应的好友衍生特征数据。

7.一种理赔风险评估装置，其特征在于，所述装置包括：

数据获取模块，用于获取待估用户的行为数据；

分组模块，用于将所述第二数量维度的特征变量划分成不同类型的第三数量特征集，每个类型的特征集包含有多个维度的特征变量，所述第三数量小于所述第二数量；计算模块，用于利用机器学习算法，对所述第三数量特征集各自包含的特征变量进行计算，确定所述待估用户的目标赔付率；

所述计算模块包括：

第一计算单元，用于利用线性回归算法，对所述第三数量预测赔付率进行计算，获得所述待估用户的目标赔付率；

所述第一模型训练单元包括：

抽样单元，用于对第三数量特征集各自包含的特征变量进行可放回抽样；

决策树构建单元，用于利用每次可放回抽样所得到的特征变量，构建对应的决策树；

第二计算单元，用于计算所述待估用户在各决策树上命中节点的第一赔付率；

第一变换单元，用于对计算得到的第四数量第一赔付率进行数学变换，确定第四数量第一输入变量；

第二模型训练单元，用于利用机器学习算法对所述第四数量第一输入变量进行模型训练，得到相应的预测赔付率，进而得到第三数量预测赔付率。

8.根据权利要求7所述的装置，其特征在于，所述特征处理模块包括：

特征筛选单元，用于对所述第一数量维度的初始特征数据进行特征迭代，筛选出满足预设要求的初始特征数据构成候选特征子集；

特征衍生单元，用于对所述候选特征子集中的初始特征数据进行特征分类，生成相应的衍生特征数据，对本次迭代后的初始特征数据继续进行特征迭代，直至特征迭代次数达到第一阈值；

特征变量确定单元，用于利用所述候选特征子集中的初始特征数据以及生成的衍生特征数据，确定第二数量维度的特征变量。

9.根据权利要求7所述的装置，其特征在于，所述第一计算单元包括：

第二变换单元，用于对所述第三数量预测赔付率进行数学变换，确定用于预测待估用户目标赔付率的预测模型的第三数量第二输入变量；

第三模型训练单元，用于利用线性回归算法对所述第三数量第二输入变量进行模型训练，得到所述待估用户的目标赔付率。

10.一种服务器，其特征在于，所述服务器包括：

通信端口；

存储器，用于实现如权利要求1-6任意一项所述的理赔风险评估方法的多个指令；

处理器，用于加载并执行所述多个指令，包括：

获取待估用户的行为数据；

计算所述待估用户在各决策树上命中节点的第一赔付率；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序，所述程序用于在被处理器执行时，实现如权利要求1-6任意一项所述的理赔风险评估方法。