CN113971527A

CN113971527A - 基于机器学习的数据风险评估方法及装置

Info

Publication number: CN113971527A
Application number: CN202111263464.8A
Authority: CN
Inventors: 谷志广
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-25

Abstract

本发明涉及人工智能技术领域，揭露一种基于机器学习的数据风险评估方法，包括：获取不包含历史健康标签信息的目标保险数据；响应于目标保险数据的风险评估指令，使用预先设置的风险字段从所述目标保险数据中提取风险字段相应的字段属性；利用决策树算法从风险字段中选取目标风险字段，并结合目标风险字段相应的字段属性输入至预先构建的风险评估模型中进行预测，得到目标风险字段在不同风险规则条件上的映射关系；根据所述目标风险字段在不同风险规则条件上的映射关系，评估目标保险数据的风险概率。本发明能够利用风险评估模型快速筛查风险数据，提高数据风险评估的准确率和分析效率。

Description

基于机器学习的数据风险评估方法及装置

技术领域

本发明涉及人工智能技术领域，尤其是涉及到基于机器学习的数据风险评估方法、装置、计算机设备及计算机存储介质。

背景技术

随着科学技术的不断发展和人们生活水平的不断提高，人们对生活质量的要求也越来越高，人们的保险意识也在不断增强。随之而来的，各类保险公司所需处理的用户投保的保险数据量也在不断增多，赔付案件量也在不断增长。

相关技术中，可以使用传统的人工加经验的管控方式设置风险评估规则，使用风险评估规则对保险数据进行风险评估，例如，反复投保的情况可作为高风险的保险数据，投保人年龄超过设置数值的情况作为高风险的保险数据，然而，通过设置风险评估规则的方式比较主观，需要风险评估人员具有较高的风险知识和风险分析能力，庞大的工作负荷和巨大的工作压力，使得风险评估过程耗费大量的人力资源和财力资源，并且针对保险数据的评估准确率和分析效率较低。

发明内容

有鉴于此，本发明提供了一种基于机器学习的数据风险评估方法、装置、计算机设备及计算机存储介质，主要目的在于解决现有技术中针对保险数据的评估准确率和分析效率较低的问题。

依据本发明一个方面，提供了一种基于机器学习的数据风险评估方法，该方法包括：

获取不包含历史健康标签信息的目标保险数据；

响应于目标保险数据的风险评估指令，使用预先设置的风险字段从所述目标保险数据中提取风险字段相应的字段属性；

利用决策树算法从风险字段中选取目标风险字段，并结合目标风险字段相应的字段属性输入至预先构建的风险评估模型中进行预测，得到目标风险字段在不同风险规则条件上的映射关系；

根据所述目标风险字段在不同风险规则条件上的映射关系，评估目标保险数据的风险概率。

在本发明另一实施例中，所述获取不包含历史健康标签信息的目标保险数据，具体包括：

通过将各个医疗数据平台接入服务端，由所述服务端向各个医疗数据平台发起查询请求，所述查询请求中携带有用户标识，所述医疗数据平台预先针对健康数据整理有与用户标识相匹配的历史健康标签信息；

根据各个医疗数据平台反馈的查询请求结果，确定用户标识是否存在对应的历史健康标签信息；

从保险数据集中筛选出不含历史健康标签信息的目标保险数据。

在本发明另一实施例中，所述使用预先设置的风险字段从所述目标保险数据中提取风险字段相应的字段属性，具体包括：

基于历史理赔数据统计信息结合模型特征工程经验，针对所述目标保险数据预先设置风险字段；

从所述目标保险数据中提取风险字段相应的字段属性。

在本发明另一实施例中，所述风险字段至少包括系统字段、开发衍生字段和设计字段，所述基于历史理赔数据统计信息结合模型特征工程经验，针对所述目标保险数据预先设置风险字段，具体包括：

基于历史理赔数据统计信息结合模型特征工程经验，分别将从所述目标保险数据中直接获取到的字段信息作为系统字段，将通过所述目标保险数据推算得到的字段信息作为开发衍生字段，将针对所述目标保险数据额外定义的字段信息作为设计字段。

在本发明另一实施例中，在所述响应于目标保险数据的风险评估指令，使用预先设置的风险字段从所述目标保险数据中提取风险字段相应的字段属性之前，所述方法还包括：

基于不包含历史健康标签信息的样本保险数据，利用决策树算法选取的目标风险字段与相应的字段属性输入至决策树网络模型中进行训练，构建风险评估模型，构建风险评估模型；

所述利用决策树算法选取的目标风险字段与相应的字段属性输入至决策树网络模型中进行训练，构建风险评估模型，构建风险评估模型，具体包括：

利用决策树算法自带模型特征重要属性的筛选功能对每个风险字段进行评估，选取对模型结果有贡献的目标风险字段；

将所述目标风险字段形成特征向量输入至决策树网络模型中进行训练，提取风险字段在不同风险规则条件上的映射关系；

根据所述风险字段在不同风险规则条件上的映射关系，构建风险评估模型。

在本发明另一实施例中，所述将所述目标风险字段形成特征向量输入至决策树网络模型中进行训练，提取风险字段在不同风险规则条件上的映射关系，具体包括：

将所述目标风险字段形成特征向量输入至决策树网络模型中进行训练，并使用决策树网络模型中节点判断风险字段是否达到节点设置的风险规则条件；

若是，则更新风险字段在相应节点上的权重；

通过汇总决策树中节点上的权重，提取风险字段在不同风险规则条件上的映射关系。

在本发明另一实施例中，在所述根据所述风险字段在不同节点上的映射关系，构建风险评估模型之前，所述方法还包括：

预先设置表征模型训练效果的目标函数，通过对所述目标函数求导得到的梯度值，对训练过程中的决策树网络模型进行更新。

依据本发明另一个方面，提供了一种基于机器学习的数据风险评估装置，所述装置包括：

获取单元，用于获取不包含历史健康标签信息的目标保险数据；

提取单元，用于响应于目标保险数据的风险评估指令，使用预先设置的风险字段从所述目标保险数据中提取风险字段相应的字段属性；

预测单元，用于利用决策树算法从风险字段中选取目标风险字段，并结合目标风险字段相应的字段属性输入至预先构建的风险评估模型中进行预测，得到目标风险字段在不同风险规则条件上的映射关系；

评估单元，用于根据所述目标风险字段在不同风险规则条件上的映射关系，评估目标保险数据的风险概率。

在本发明另一实施例中，所述获取单元包括：

查询模块，用于通过将各个医疗数据平台接入服务端，由所述服务端向各个医疗数据平台发起查询请求，所述查询请求中携带有用户标识，所述医疗数据平台预先针对健康数据整理有与用户标识相匹配的历史健康标签信息；

确定模块，用于根据各个医疗数据平台反馈的查询请求结果，确定用户标识是否存在对应的历史健康标签信息；

筛选模块，用于从保险数据集中筛选出不含历史健康标签信息的目标保险数据。

在本发明另一实施例中，所述提取单元包括：

设置模块，用于基于历史理赔数据统计信息结合模型特征工程经验，针对所述目标保险数据预先设置风险字段；

提取模块，用于从所述目标保险数据中提取风险字段相应的字段属性。

在本发明另一实施例中，所述风险字段至少包括系统字段、开发衍生字段和设计字段，所述设置模块，具体用于基于历史理赔数据统计信息结合模型特征工程经验，分别将从所述目标保险数据中直接获取到的字段信息作为系统字段，将通过所述目标保险数据推算得到的字段信息作为开发衍生字段，将针对所述目标保险数据额外定义的字段信息作为设计字段。

在本发明另一实施例中，所述装置还包括：

构建单元，用于基于不包含历史健康标签信息的样本保险数据，利用决策树算法选取的目标风险字段与相应的字段属性输入至决策树网络模型中进行训练，构建风险评估模型，构建风险评估模型；

所述构建单元包括：

选取模块，用于利用决策树算法自带模型特征重要属性的筛选功能对每个风险字段进行评估，选取对模型结果有贡献的目标风险字段；

训练模块，用于将所述目标风险字段形成特征向量输入至决策树网络模型中进行训练，提取风险字段在不同风险规则条件上的映射关系；

构建模块，用于根据所述风险字段在不同风险规则条件上的映射关系，构建风险评估模型。

在本发明另一实施例中，所述训练模块包括：

判断子模块，用于将所述目标风险字段形成特征向量输入至决策树网络模型中进行训练，并使用决策树网络模型中节点判断风险字段是否达到节点设置的风险规则条件；

更新子模块，用于若是，则更新风险字段在相应节点上的权重；

提取子模块，用于通过汇总决策树中节点上的权重，提取风险字段在不同风险规则条件上的映射关系。

在本发明另一实施例中，所述构建单元还包括：

更新模块，用于在所述根据所述风险字段在不同节点上的映射关系，构建风险评估模型之前，预先设置表征模型训练效果的目标函数，通过对所述目标函数求导得到的梯度值，对训练过程中的决策树网络模型进行更新。

依据本发明又一个方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于机器学习的数据风险评估方法的步骤。

依据本发明再一个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于机器学习的数据风险评估方法的步骤。

借由上述技术方案，本发明提供一种基于机器学习的数据风险评估方法及装置，通过获取不包含历史健康标签信息的目标保险数据，然后响应于目标保险数据的风险评估指令，使用预先设置的风险字段从目标保险数据中提取风险字段相应的字段属性，利用决策树算法从风险字段中选取目标风险字段，并结合目标风险字段相应的字段属性输入至预先构建的风险评估模型中进行预测，得到目标风险字段在不同风险规则条件上的映射关系，根据目标风险字段在不同风险规则条件上的映射关系，评估目标保险数据的风险概率。与现有技术中使用人工加经验管控方式设置风险评估规则的方式相比，本申请针对不包含历史健康标签信息的保险数据使用风险评估模型进行风险评估，可以快速筛查高风险的保险数据，节省了风险评估过程耗费大量的人力资源和财力资源，提高风险数据的评估准确率和分析效率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种基于机器学习的数据风险评估方法的流程示意图；

图2示出了本发明实施例提供的另一种基于机器学习的数据风险评估方法的流程示意图；

图3示出了本发明实施例提供的一种基于机器学习的数据风险评估装置的结构示意图；

图4示出了本发明实施例提供的另一种基于机器学习的数据风险评估装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供了一种基于机器学习的数据风险评估方法，针对不包含历史健康标签信息的保险数据使用风险评估模型进行风险评估，可以快速筛查高风险的保险数据，节省了风险评估过程耗费大量的人力资源和财力资源，如图1所示，该方法包括：

101、获取不包含历史健康标签信息的目标保险数据。

其中，历史健康标签信息为记录在各个医疗数据平台内用户授权的健康数据对应的标签信息，用户在各个医疗数据平台每触发一次执行记录，则相应医疗数据平台会生成一个历史健康信息标签，至少包括平台类别标签、时间标签、疾病标签，例如，用户曾经去医院A挂号就诊，则医院A的数据平台中会生成用户的就诊记录，并相应记录就诊标签、时间标签、疾病标签，用户曾经在保险平台B发起理赔，则保险平台B中会生成用户的理赔记录，理赔标签、时间标签、疾病标签。这里健康数据可以为医疗数据平台所记录用户授权的医保卫健数据、健康云平台所记录用户授权的商保理赔数据等等，具体可通过将各个医疗数据平台接入服务端，由服务端发起向各个医疗数据平台的查询请求，该查询请求中携带有用户标识信息，这里各个医疗数据平台会预先针对健康数据整理出用户健康标签信息，并在接收到查询请求后返回相应用户标识信息对应的用户健康标签信息。

在实际应用场景中，用户健康标签信息具体可以根据保险条款责任判定疾病类型是否处于保险理赔范围内，针对不符合保险理赔范围内的用户健康信息进行标记，可形成用户标识信息对应的用户健康标签信息。

可以理解的是，为了便于健康标签信息的统一标准，这里还可以由服务端发起与各个医疗数据平台的查询请求后，各个医疗平台返回相应用户标识信息相对应的健康数据，服务端从不同维度对用户标识信息相对应的健康数据进行整理，可以获取到不同用户的历史健康标签信息。

在本发明实施例中，执行主体可以为基于机器学习的数据风险评估装置，具体应用在服务器端，这里目标保险数据相当于用户通过各个保险平台发起理赔请求所涉及的关联数据，为了加快理赔度，考虑到保险行业内部数据的共享性，对于包含历史健康信息标签的目标保险数据，可以快速查询到用户的既往健康数据，并根据既往健康数据实现快速理赔，而针对不包含历史健康信息的目标保险数据，还需要进一步执行数据风险评估，以提升保险数据的可靠性。

上述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

102、响应于目标保险数据的风险评估指令，使用预先设置的风险字段从所述目标保险数据中提取风险字段相应的字段属性。

由于目标保险数据中包含有大量的用户信息以及用户投保的相关信息，对于保险数据是否符合理赔要求，需要使用风险字段对其进行评估，这里具体可以基于历史理赔案件统计信息、人工审核及模型特征工程经验预先设置风险字段，并根据风险字段从目标保险数据中提取风险字段相应的字段属性，该风险字段可包括系统字段、开发衍生字段和设计字段，系统字段为从目标保险数据中可直接获取到的字段信息，例如，年龄、赔付金额、赔付次数、住院天数、理赔时间等，开发衍生字段为需要通过目标保险数据推算得到，例如，理赔报案时间距离保单生效时间，报案时间与案件发生时间的时间间隔，就诊医院与常驻地关系，设计字段为针对目标保险数据额外定义的字段，例如，天气字段、交通字段等。

103、利用决策树算法从风险字段中选取目标风险字段，并结合目标风险字段相应的字段属性输入至预先构建的风险评估模型中进行预测，得到目标风险字段在不同风险规则条件上的映射关系。

考虑到众多风险字段可能对模型结果无贡献或者贡献可以忽略不计，这里可以利用决策树算法选取对模型结果有贡献的目标风险字段，决策树算法自带有模型特重要属性的筛选功能，进而结合目标风险字段相应的字段属性输入至预先构建的风险评估模型中进行预测，得到目标风险字段在不同风险规则条件上的映射关系。

具体使用风险评估模型进行预测的过程中，首先随机初始化参数，然后将目标风险字段与相应的字段属性形成特征向量输入到风险评估模型中，预测得到保险数据在理赔欺诈风险映射权重，该风险映射权重相当于目标风险字段在不同风险规则条件上的映射关系。

104、根据所述目标风险字段在不同风险规则条件上的映射关系，评估目标保险数据的风险概率。

可以理解的是，风险概率能够从一定程度反映目标保险数据存在的风险情况，为了加快保险数据的处理时效，这里还可以根据风险概率的分数值预先将保险数据划分为不同案件类型，例如，高风险案件、正常案件和低风险案件，设置分数值高于500的保险数据为高风险案件，分数值处于300-500的保险数据为正常案件，分数值小于300的保险数据为低风险案件，并根据目标保险数据的风险概率确定目标保险数据对应的案件类型，同时针对不同案件类型的保险数据使用不同的处理策略，例如，针对低风险案件可以加快理赔进度，针对高风险案件进行理赔审核提示，提示高风险欺诈因子，低风险案件快速赔付，提升客户体验，进一步在确定目标保险数据对应的案件类型之后，针对目标保险数据使用相应案件类型的处理策略。

本发明实施例提供的一种基于机器学习的数据风险评估方法，通过获取不包含历史健康标签信息的目标保险数据，然后响应于目标保险数据的风险评估指令，使用预先设置的风险字段从目标保险数据中提取风险字段相应的字段属性，利用决策树算法从风险字段中选取目标风险字段，并结合目标风险字段相应的字段属性输入至预先构建的风险评估模型中进行预测，得到目标风险字段在不同风险规则条件上的映射关系，根据目标风险字段在不同风险规则条件上的映射关系，评估目标保险数据的风险概率。与现有技术中使用人工加经验管控方式设置风险评估规则的方式相比，本申请针对不包含历史健康标签信息的保险数据使用风险评估模型进行风险评估，可以快速筛查高风险的保险数据，节省了风险评估过程耗费大量的人力资源和财力资源，提高风险数据的评估准确率和分析效率。

本发明实施例提供了另一种基于机器学习的数据风险评估方法，针对不包含历史健康标签信息的保险数据使用风险评估模型进行风险评估，可以快速筛查高风险的保险数据，节省了风险评估过程耗费大量的人力资源和财力资源，如图2所示，所述方法包括：

201、获取不包含历史健康标签信息的目标保险数据、

具体可以通过将各个医疗数据平台接入服务端，由所述服务端向各个医疗数据平台发起查询请求，并根据各个医疗数据平台反馈的查询请求结果，确定用户标识是否存在对应的历史健康标签信息，从保险数据集中筛选出不含历史健康标签信息的目标保险数据。

可以理解的是，这里目标保险数据由样本用户通过保险平台触发理赔请求所上传，每个目标保险数据中记录有围绕案件标识产生的保险数据，具体可以包括理赔事件的经过信息以及投保信息等。

在实际应用场景中，医疗数据平台中记录有用户在相应医疗平台中生成的健康数据，服务端可预先设置不符合医保赔付的预设理赔维度，进一步根据用户标识信息查询各个医疗数据平台是否存在预设理赔维度上的就诊记录，若是，在认为健康数据可能存在不符合医保赔付的风险。

202、基于不包含历史健康标签信息的样本保险数据，利用决策树算法自带模型特征重要属性的筛选功能对每个风险字段进行评估，选取对模型结果有贡献的目标风险字段。

作为一种评估选择方式，可以通过计算特征的缺失率、发散率、相关性、信息量、稳定性等指标对各个特征进行评估选择，常用如缺失情况、单值率、方差验证、相关系数、信息增益等方法进行评估选择。针对缺失率指标，可以通过分析各特征缺失率，并设定阈值对特征进行筛选，该阈值可以凭经验值(如缺失率<0.9)或可观察风险字段各特征整体分布，确定特征分布的异常值作为阈值；针对发散率指标，特征无发散意味着该特征值基本一样，无区分能力，通过分析特征单个值的最大占比及方差以评估特征发散情况，并设定阈值进行特征筛选，该阈值可以凭经验值(如单值率<0.9,方差>0.001)或可观察风险字段各特征整体分布，以特征分布的异常值作为阈值；针对相关性指标，特征间相关性高会浪费计算资源，影响模型的解释性，特别对线性模型来说，会导致拟合模型参数的不稳定。常用的分析特征相关性方法有：方差膨胀因子VIF，用于计算数值特征间的共线性，一般当VIF大于10表示有较高共线性，person相关系数，用于计算数值特征两两间的相关性，数值范围[-1，1]；针对信息量指标，评估任务中，可以通过计算某个特征对于评估事件到底有多大信息量贡献，然后特征选择信息量贡献大的特征，常用的方法有信息增益，用于计算特征的信息贡献程度。

作为另一种评估选择方式，可以直接使用模型训练得到特征重要性，在模型训练同时进行特征选择，通过模型得到各个特征的权值系数，根据权值系数从大小来选择特征，常用如基于L1正则项的逻辑回归、基于树模型的特征排序。针对基于L1正则项的逻辑回归，L1正则方法具有稀疏解的特性，直观从二维解空间来看L1-ball为正方形，在顶点处时(如W2＝C,W1＝0的稀疏解)，更容易达到最优解；针对基于树模型的特征排序，基于决策树的树模型(随机森林，Lightgbm，Xgboost等)，树生长过程中也是启发式搜索特征子集的过程，可以直接用训练后模型来输出特征重要性。

进一步地，由于保险数据中正负样本不均衡，会大大影响模型性能和结果，这里还可以通过决策树算法参数设置样本平衡属性，将自动平衡占主导地位风险字段的权重，减少和消除样本不均衡对模型结果造成的影响。

203、将所述目标风险字段形成特征向量输入至决策树网络模型中进行训练，提取风险字段在不同风险规则条件上的映射关系。

具体在决策树网络模型中，不同节点设置有风险规则条件，这里可以将目标风险字段形成特征向量输入至决策树网络模型中进行训练，并使用决策树网络模型中节点判断风险字段是否达到节点设置的风险规则条件，若是，则更新风险字段在相应节点上的权重，进一步通过汇总决策树中节点上的权重，提取风险字段在不同风险规则条件上的映射关系。

204、根据所述风险字段在不同风险规则条件上的映射关系，构建风险评估模型。

可以理解的是，为了保证风险评估模型的预测效果，这里通过训练决策树网络模型来构建风险评估模型，具体在训练过程中可预先设置表征模型训练效果的目标函数，通过对目标函数求导得到梯度值，对训练过程中的决策树网络模型进行更新，并使用更新后的决策树网络模型构建风险评估模型。

205、响应于目标保险数据的风险评估指令，使用预先设置的风险字段从所述目标保险数据中提取风险字段相应的字段属性。

206、利用决策树算法从风险字段中选取目标风险字段，并结合目标风险字段相应的字段属性输入至预先构建的风险评估模型中进行预测，得到目标风险字段在不同风险规则条件上的映射关系。

207、根据所述目标风险字段在不同风险规则条件上的映射关系，评估目标保险数据的风险概率。

这里可以通过分类器将目标风险字段在不同风险规则条件上的映射关系转化为0～1000之间的数值作为风险评估模型的输出参数，该输出参数相当于目标保险数据的风险概率。

本申请通过打通医保卫健以及商保理赔数据，可以快速获得既往健康信息的理赔客户，并筛查既往症人群带病投保理赔的情况，大大简约了理赔调查时间和费用。对于无法获得既往健康信息的理赔客户，使用决策树算法模型进行理赔案件风险评分，提升审核及调查的效率、精度及针对性。实时快速提示高风险欺诈案件，提示高风险欺诈因子，提供案件理赔调查方向。对模型评分低的低风险案件快速赔付，提升客户体验。

进一步地，作为图1所述方法的具体实现，本发明实施例提供了一种基于机器学习的数据风险评估装置，如图3所示，所述装置包括：获取单元31、提取单元32、预测单元33、评估单元34。

获取单元31，可以用于获取不包含历史健康标签信息的目标保险数据；

提取单元32，可以用于响应于目标保险数据的风险评估指令，使用预先设置的风险字段从所述目标保险数据中提取风险字段相应的字段属性；

预测单元33，可以用于利用决策树算法从风险字段中选取目标风险字段，并结合目标风险字段相应的字段属性输入至预先构建的风险评估模型中进行预测，得到目标风险字段在不同风险规则条件上的映射关系；

评估单元34，可以用于根据所述目标风险字段在不同风险规则条件上的映射关系，评估目标保险数据的风险概率。

本发明实施例提供的一种基于机器学习的数据风险评估装置，通过获取不包含历史健康标签信息的目标保险数据，然后响应于目标保险数据的风险评估指令，使用预先设置的风险字段从目标保险数据中提取风险字段相应的字段属性，利用决策树算法从风险字段中选取目标风险字段，并结合目标风险字段相应的字段属性输入至预先构建的风险评估模型中进行预测，得到目标风险字段在不同风险规则条件上的映射关系，根据目标风险字段在不同风险规则条件上的映射关系，评估目标保险数据的风险概率。与现有技术中使用人工加经验管控方式设置风险评估规则的方式相比，本申请针对不包含历史健康标签信息的保险数据使用风险评估模型进行风险评估，可以快速筛查高风险的保险数据，节省了风险评估过程耗费大量的人力资源和财力资源，提高风险数据的评估准确率和分析效率。

作为图3中所示基于机器学习的数据风险评估装置的进一步说明，图4是根据本发明实施例另一种基于机器学习的数据风险评估装置的结构示意图，如图4所示，所述获取单元31包括：

查询模块311，可以用于通过将各个医疗数据平台接入服务端，由所述服务端向各个医疗数据平台发起查询请求，所述查询请求中携带有用户标识，所述医疗数据平台预先针对健康数据整理有与用户标识相匹配的历史健康标签信息；

确定模块312，可以用于根据各个医疗数据平台反馈的查询请求结果，确定用户标识是否存在对应的历史健康标签信息；

筛选模块313，可以用于从保险数据集中筛选出不含历史健康标签信息的目标保险数据。

在具体应用场景中，如图4所示，所述提取单元32包括：

设置模块321，可以用于基于历史理赔数据统计信息结合模型特征工程经验，针对所述目标保险数据预先设置风险字段；

提取模块322，可以用于从所述目标保险数据中提取风险字段相应的字段属性。

在具体应用场景中，所述风险字段至少包括系统字段、开发衍生字段和设计字段，所述设置模块321，具体可以用于基于历史理赔数据统计信息结合模型特征工程经验，分别将从所述目标保险数据中直接获取到的字段信息作为系统字段，将通过所述目标保险数据推算得到的字段信息作为开发衍生字段，将针对所述目标保险数据额外定义的字段信息作为设计字段。

在具体应用场景中，如图4所示，所述装置还包括：

构建单元35，可以用于基于不包含历史健康标签信息的样本保险数据，利用决策树算法选取的目标风险字段与相应的字段属性输入至决策树网络模型中进行训练，构建风险评估模型，构建风险评估模型；

所述构建单元35包括：

选取模块351，可以用于利用决策树算法自带模型特征重要属性的筛选功能对每个风险字段进行评估，选取对模型结果有贡献的目标风险字段；

训练模块352，可以用于将所述目标风险字段形成特征向量输入至决策树网络模型中进行训练，提取风险字段在不同风险规则条件上的映射关系；

构建模块353，可以用于根据所述风险字段在不同风险规则条件上的映射关系，构建风险评估模型。

在具体应用场景中，如图4所示，所述训练模块352包括：

判断子模块3521，可以用于将所述目标风险字段形成特征向量输入至决策树网络模型中进行训练，并使用决策树网络模型中节点判断风险字段是否达到节点设置的风险规则条件；

更新子模块3522，可以用于若是，则更新风险字段在相应节点上的权重；

提取子模块3523，可以用于通过汇总决策树中节点上的权重，提取风险字段在不同风险规则条件上的映射关系。

在具体应用场景中，如图4所示，所述构建单元35还包括：

更新模块354，可以用于在所述根据所述风险字段在不同节点上的映射关系，构建风险评估模型之前，预先设置表征模型训练效果的目标函数，通过对所述目标函数求导得到的梯度值，对训练过程中的决策树网络模型进行更新。

需要说明的是，本实施例提供的一种基于机器学习的数据风险评估装置所涉及各功能单元的其他相应描述，可以参考图1、图2中的对应描述，在此不再赘述。

基于上述如图1、图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1、图2所示的基于机器学习的数据风险评估方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1、图2所示的基于机器学习的数据风险评估方法

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的基于机器学习的数据风险评估装置的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请针对不包含历史健康标签信息的保险数据使用风险评估模型进行风险评估，可以快速筛查高风险的保险数据，节省了风险评估过程耗费大量的人力资源和财力资源，提高风险数据的评估准确率和分析效率。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于机器学习的数据风险评估方法，其特征在于，所述方法包括：

获取不包含历史健康标签信息的目标保险数据；

2.根据权利要求1所述的方法，其特征在于，所述获取不包含历史健康标签信息的目标保险数据，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述使用预先设置的风险字段从所述目标保险数据中提取风险字段相应的字段属性，具体包括：

从所述目标保险数据中提取风险字段相应的字段属性。

4.根据权利要求3所述的方法，其特征在于，所述风险字段至少包括系统字段、开发衍生字段和设计字段，所述基于历史理赔数据统计信息结合模型特征工程经验，针对所述目标保险数据预先设置风险字段，具体包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，在所述响应于目标保险数据的风险评估指令，使用预先设置的风险字段从所述目标保险数据中提取风险字段相应的字段属性之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述目标风险字段形成特征向量输入至决策树网络模型中进行训练，提取风险字段在不同风险规则条件上的映射关系，具体包括：

若是，则更新风险字段在相应节点上的权重；

7.根据权利要求5所述的方法，其特征在于，在所述根据所述风险字段在不同节点上的映射关系，构建风险评估模型之前，所述方法还包括：

8.一种基于机器学习的数据风险评估装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。