CN115018656A

CN115018656A - 风险识别方法、风险识别模型的训练方法、装置和设备

Info

Publication number: CN115018656A
Application number: CN202210942407.0A
Authority: CN
Inventors: 徐财应
Original assignee: Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Current assignee: Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-09-06
Anticipated expiration: 2042-08-08
Also published as: CN115018656B

Abstract

本申请涉及一种风险识别方法、风险识别模型的训练方法、装置和设备，通过获取待识别案件的风险相关数据，并将待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果，最后输出该风险识别结果；其中，预设风险识别模型为基于样本数据库中标注案件的风险相关数据、未标注案件的风险相关数据结合预设风险因子，对初始风险识别模型进行训练所得到的模型；标注案件为预先标注了风险识别结果的案件，未标注案件为预先未标注风险识别结果的案件。即该风险识别模型是通过标注案件和未标注案件训练得到的，增加了训练样本数，进而提高了风险识别模型的准确性；同时结合预设风险因子，能够提高风险识别模型的风险识别准确性。

Description

风险识别方法、风险识别模型的训练方法、装置和设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种风险识别方法、风险识别模型的训练方法、装置和设备。

背景技术

随着我国保险行业的不断发展与变革以及保险法的不断完善，保险成为人民生活、健康以及财产安全等方面的重要保障，同时保险公司也结合市场需求开展了不同的保险业务并处理相应的保险案件。

然而目前保险市场面临“高赔付、低盈利”的现状，居高不下的赔付率直接影响保险行业的盈利水平和发展的可持续性。对保险案件进行风险管控可以控制赔付率，因此，如何加强保险案件的风险管控成为解决“高赔付、低盈利”问题的关键。

但是，采用传统技术，对保险案件进行风险管控所得到的风险识别结果的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高保险案件的风险识别结果准确性的风险识别方法、风险识别模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。

第一方面，本申请提供了一种风险识别方法。该方法包括：

获取待识别案件的风险相关数据；

将待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果；该预设风险识别模型为基于样本数据库中标注案件的风险相关数据、未标注案件的风险相关数据结合预设风险因子，对初始风险识别模型进行训练所得到的模型；标注案件为预先标注了风险识别结果的案件，未标注案件为预先未标注风险识别结果的案件；

输出风险识别结果。

在其中一个实施例中，将待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果，包括：

根据待识别案件的风险相关数据、预设风险因子，计算待识别案件与标注案件数据库中的多个标注案件之间的相似度，得到待识别案件与各标注案件之间的相似度；

基于待识别案件与各标注案件之间的相似度、各标注案件的风险识别结果，确定待识别案件的风险识别结果。

在其中一个实施例中，预设风险因子包括第一类风险因子及第二类风险因子；第一类风险因子包括基于案件的内部风险相关数据确定的风险因子；第二类风险因子包括基于案件的外部风险相关数据所确定的风险因子；外部风险相关数据包括从第三方平台所获取到的与案件关联的风险数据。

在其中一个实施例中，该方法还包括：

获取样本数据库；

将多个标注案件的风险相关数据、标注案件的风险识别结果以及多个未标注案件的风险相关数据、预设风险因子输入至初始风险识别模型中，计算未标注案件的风险识别结果；

根据未标注案件的风险识别结果，对初始风险识别模型进行训练，得到预设风险识别模型。

在其中一个实施例中，将多个标注案件的风险相关数据、标注案件的风险识别结果以及多个未标注案件的风险相关数据、预设风险因子输入至初始风险识别模型中，计算未标注案件的风险识别结果，包括：

根据标注案件的风险相关数据、未标注案件的风险相关数据以及初始风险因子，计算未标注案件与标注案件之间的概率转移矩阵；该初始风险因子包括第一类风险因子；

根据未标注案件与标注案件之间的概率转移矩阵结合传播算法，生成未标注案件的风险识别结果。

在其中一个实施例中，根据未标注案件的风险识别结果，对初始风险识别模型进行训练，得到预设风险识别模型，包括：

根据风险识别结果，从未标注案件中确定与第一结果对应的目标未标注案件，确定目标未标注案件识别准确率；该第一结果为存在风险的结果；

在识别准确率小于预设阈值的情况下，基于候选第二类风险因子对目标未标注案件进行聚类，并根据聚类结果从候选第二类风险因子中，确定第二类风险因子；其中，该候选第二类风险因子包括基于案件的外部风险相关数据所确定的候选风险因子；

将第二类风险因子添加至初始风险因子中，生成新的初始风险因子并进行迭代计算得到未标注案件的新的风险识别结果，根据新的风险识别结果，从未标注案件中确定与第一结果对应的新的目标未标注案件，确定新的目标未标注案件识别准确率，直到识别准确率大于或等于预设阈值为止。

在其中一个实施例中，基于候选第二类风险因子对目标未标注案件进行聚类，并根据聚类结果从候选第二类风险因子中，确定第二类风险因子，包括：

采用候选第二类风险因子对目标未标注案件进行聚类处理，得到聚类结果；

从聚类结果中，确定聚类中心的密集程度大于或等于预设密集程度阈值的目标聚类结果；

将与目标聚类结果对应的候选第二类风险因子，作为第二类风险因子。

第二方面，本申请还提供了一种风险识别模型的训练方法，该方法包括：

获取样本数据库；该样本数据库包括标注案件的风险相关数据、标注案件的风险识别结果和未标注案件的风险相关数据；

在其中一个实施例中，获取标注案件的风险识别结果，包括：

获取样本数据库中标注案件的风险相关数据和标注案件对应的初始风险识别结果；

采用从第三方平台获取的候选第二类风险因子，对标注案件的风险相关数据进行风险识别，得到标注案件对应的中间识别结果；

根据中间识别结果和初始风险识别结果，确定标注案件对应的风险识别结果。

第三方面，本申请还提供了一种风险识别装置，该装置包括：

获取模块，用于获取待识别案件的风险相关数据；

风险识别模块，用于将待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果；预设风险识别模型为基于样本数据库中标注案件的风险相关数据、未标注案件的风险相关数据结合预设风险因子，对初始风险识别模型进行训练所得到的模型；标注案件为预先标注了风险识别结果的案件，未标注案件为预先未标注风险识别结果的案件；

输出模块，用于输出风险识别结果。

第四方面，本申请还提供了一种风险识别模型的训练装置，该装置包括：

获取模块，用于获取样本数据库；样本数据库包括标注案件的风险相关数据、标注案件的风险识别结果和未标注案件的风险相关数据；

计算模块，用于将多个标注案件的风险相关数据、标注案件的风险识别结果以及多个未标注案件的风险相关数据、预设风险因子输入至初始风险识别模型中，计算未标注案件的风险识别结果；

训练模块，用于根据未标注案件的风险识别结果，对初始风险识别模型进行训练，得到预设风险识别模型。

第五方面，本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行该计算机程序时实现上述第一方面和第二方面中的方法的步骤。

第六方面，本申请还提供了一种计算机可读存储介质。计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面和第二方面中的方法的步骤。

第七方面，本申请还提供了一种计算机程序产品。计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面和第二方面中的方法的步骤。

上述风险识别方法、风险识别模型的训练方法、装置和设备，通过获取待识别案件的风险相关数据，并将待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果，最后输出该风险识别结果；其中，该预设风险识别模型为基于样本数据库中标注案件的风险相关数据、未标注案件的风险相关数据结合预设风险因子，对初始风险识别模型进行训练所得到的模型；标注案件为预先标注了风险识别结果的案件，未标注案件为预先未标注风险识别结果的案件。也就是说，本申请实施例中的风险识别模型是通过标注案件和未标注案件训练得到的，能够大大增加训练样本数，进而提高风险识别模型的准确性；同时，在进行模型训练过程中，还结合了预设风险因子，由于预设风险因子能够表征案件的风险程度，因此，结合预设风险因子进行风险案件的学习，能够提高风险识别模型的风险识别准确性；基于此，采用本申请实施例中的风险识别模型对待识别案件进行风险识别，能够大大提高风险识别结果的准确性，进而能够加强对保险案件的风险管控，降低保险案件的赔付率。

附图说明

图1为一个实施例中风险识别方法的应用环境图；

图2为一个实施例中风险识别方法的流程示意图；

图3为另一个实施例中风险识别方法的流程示意图；

图4为另一个实施例中风险识别方法的流程示意图；

图5为另一个实施例中风险识别方法的流程示意图；

图6为一个实施例中风险识别模型的训练方法的流程示意图；

图7为另一个实施例中风险识别模型的训练方法的流程示意图；

图8为一个实施例中风险识别装置的结构框图；

图9为一个实施例中风险识别模型的训练装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的风险识别方法，可以应用于如图1所示的计算机设备中。该计算机设备可以是终端，也可以是服务器，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储保险案件、各保险案件的内部风险相关数据以及从第三方平台获取的保险案件的外部风险相关数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种风险识别方法。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。该计算机设备可以用独立的服务器或者是多个服务器组成的服务器集群来实现，本申请实施例对此并不做限定。

下面将通过实施例并结合附图具体地对本申请实施例的技术方案以及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

在一个实施例中，如图2所示，提供了一种风险识别方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

步骤201，获取待识别案件的风险相关数据。

其中，该待识别案件可以是数据库中的历史保险案件，也可以是业务系统或者理赔系统中正在处理的保险案件；该待识别案件的风险相关数据可以包括但不限于是保险公司内部对该待识别案件所记录的风险相关数据、从除该保险公司之外的其他第三方平台所获取到的与该待识别案件关联的风险相关数据等；可选地，该第三方平台可以包括但不限于是通信运营商平台（如现有的移动、联通、电信等平台）、医疗平台等；例如，该风险相关数据可以包括但不限于是案件名称、案件性质、案件发生地点、案件发生时间、涉案人手机定位、涉案通话记录以及涉案通话时长等数据。

可选地，计算机设备在对待识别案件进行风险识别时，可以根据预设的多个风险相关数据的标识（如：数据的名称、数据的编号等），从保险公司或者第三方平台获取该待识别案件的各个风险相关数据的标识对应的风险相关数据，以得到待识别案件的风险相关数据。

步骤202，将待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果。

其中，该预设风险识别模型为基于样本数据库中标注案件的风险相关数据、未标注案件的风险相关数据结合预设风险因子，对初始风险识别模型进行训练所得到的模型；标注案件为预先标注了风险识别结果的案件，未标注案件为预先未标注风险识别结果的案件。也就是说，该预设风险识别模型是通过标注案件和未标注案件对初始风险识别模型进行半监督模型训练后所得到的风险识别模型。可选地，该初始风险识别模型可以采用基于图的半监督学习算法，通过构造图结构来标记样本数据库中的标注案件和未标注案件，并采用标签传播算法确定各个未标注案件的风险识别结果，以此循环迭代进行模型训练得到该预设风险识别模型；其中，标签传播算法中可以结合预设风险因子，来确定各样本数据之间的概率转移矩阵。

可选地，该预设风险因子可以包括第一类风险因子及第二类风险因子；第一类风险因子可以包括基于案件的内部风险相关数据所确定的风险因子，即可以通过保险公司内部记录的保险案件的相关数据来确定与案件风险程度相关的第一类风控因子；第二类风险因子可以包括基于案件的外部风险相关数据所确定的风险因子，外部风险相关数据可以包括从第三方平台（如：运营商平台）所获取到的与案件关联的风险数据，即可以通过第三方平台记录的保险案件的相关数据来确定与案件风险程度相关的第二类风险因子。可选地，可以通过专家决策或者对历史已处理的风险案件进行分析，来确定第一类风险因子和第二类风险因子，该第一类风险因子可以包括但不限于是出险时间、出险地点、往年是否出险、出险次数等，该第二类风险因子可以包括但不限于是用户手机定位、通话记录及时长等。需要说明的是，对于本申请实施例中涉及到的风险相关数据可以是与预设风险因子相对应的保险案件的实际数据。另外，针对每一个风险因子还预设有与风险因子对应的风控规则，该风控规则可以用于对待保险案件进行风险评估。本实施例中通过增加从第三方平台获取到的第二类风险因子和风险相关数据，能够增加保险案件进行风险评估的风险维度，还能丰富样本数据的风险相关数据的维度，进而能够提高风险识别模型的风险识别率。

可选地，在获取到待识别案件的风险相关数据之后，可以将这些风险相关数据输入至预设风险识别模型中进行风险识别，得到风险识别结果；该风险识别结果可以包括该待识别案件有无风险的结果，和/或，该待识别案件为有风险案件的概率等，本申请实施例对风险识别结果的具体内容并不做限定。

步骤203，输出风险识别结果。

上述风险识别方法中，计算机设备通过获取待识别案件的风险相关数据，并将待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果，最后输出该风险识别结果；其中，该预设风险识别模型为基于样本数据库中标注案件的风险相关数据、未标注案件的风险相关数据结合预设风险因子，对初始风险识别模型进行训练所得到的模型；标注案件为预先标注了风险识别结果的案件，未标注案件为预先未标注风险识别结果的案件。也就是说，本申请实施例中的风险识别模型是通过标注案件和未标注案件训练得到的，能够大大增加训练样本数，进而提高风险识别模型的准确性；同时，在进行模型训练过程中，还结合了预设风险因子，由于预设风险因子能够表征案件的风险程度，因此，结合预设风险因子进行风险案件的学习，能够提高风险识别模型的风险识别准确性；基于此，采用本申请实施例中的风险识别模型对待识别案件进行风险识别，能够大大提高风险识别结果的准确性，进而能够加强对保险案件的风险管控，降低保险案件的赔付率。

图3为另一个实施例中风险识别方法的流程示意图。本实施例涉及的是计算机设备将待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果的其中一种可选的实现过程，在上述实施例的基础上，如图3所示，上述步骤202包括：

步骤301，根据待识别案件的风险相关数据、预设风险因子，计算待识别案件与标注案件数据库中的多个标注案件之间的相似度，得到待识别案件与各标注案件之间的相似度。

可选地，可以根据待识别案件的风险相关数据和不同的标注案件的风险相关数据，计算待识别案件与标注案件之间的相似度；在计算相似度的过程中，可以采用与预设风险因子对应的风险相关数据来计算两个案件之间的相似度，对于每个与预设风险因子对应的风险相关数据可以设置相同或者不同的权重，还可以根据预设风险因子的风险程度等级预设不同的权重，风险程度等级越高的预设风险因子对应的权重越大。可选地，也可以采用待识别案件的全部风险相关数据（包括预设风险因子对应的风险相关数据和非预设风险因子对应的风险相关数据）来计算两个案件之间的相似度；这里预设风险因子对应的权重可以大于非预设风险因子对应的权重。

步骤302，基于待识别案件与各标注案件之间的相似度、各标注案件的风险识别结果，确定待识别案件的风险识别结果。

可选地，在计算出待识别案件与各标注案件之间的相似度之后，可以选择相似度最高的标注案件，并将该相似度最高的标注案件的风险识别结果，作为待识别案件的风险识别结果。

本实施例中，计算机设备根据待识别案件的风险相关数据、预设风险因子，计算待识别案件与标注案件数据库中的多个标注案件之间的相似度，得到待识别案件与各标注案件之间的相似度；并基于待识别案件与各标注案件之间的相似度、各标注案件的风险识别结果，确定待识别案件的风险识别结果；也就是说，本申请中在计算待识别案件与标注案件之间的相似度的过程中，引入了能够表征风险程度的预设风险因子，能够大大提高风险案件的识别效率和识别准确性。

图4为另一个实施例中风险识别方法的流程示意图。本实施例涉及的是计算机设备获取预设风险识别模型的其中一种可选的实现过程，在上述实施例的基础上，如图4所示，上述方法还包括：

步骤401，获取样本数据库。

其中，该样本数据库中可以包括标注案件和未标注案件，即包括标注案件的风险相关数据和风险识别结果，以及未标注案件的风险相关数据。

可选地，计算机设备可以从保险公司的历史理赔案件中获取样本数据，也可以理赔系统中获取当前正在处理的理赔案件作为样本数据，还可以从网络上下载更多的理赔案件等，本申请实施例对获取样本数据的方式并不做限定。

步骤402，将多个标注案件的风险相关数据、标注案件的风险识别结果以及多个未标注案件的风险相关数据、预设风险因子输入至初始风险识别模型中，计算未标注案件的风险识别结果。

可选地，计算机设备可以根据标注案件的风险相关数据、未标注案件的风险相关数据以及初始风险因子，计算未标注案件与标注案件之间的概率转移矩阵，并根据未标注案件与标注案件之间的概率转移矩阵结合传播算法，生成未标注案件的风险识别结果；该初始风险因子包括第一类风险因子，也就是基于案件的内部风险相关数据确定的风险因子，该概率转移矩阵中可以包括两两标注案件之间的相似度，即遍历每个标注案件，计算一个标注案件和其他的任一标注案件之间的相似度，从而得到该概率转移矩阵。

可选地，可以采用基于图的半监督算法，通过构造图结构（数据点为顶点，点之间的相似度为边）来寻找样本数据中有标签数据（即标注案件）和无标签数据（即未标注案件）；在标签的传播过程中，会流经无标签数据，即有些无标签的标签的信息，是从另一些无标签数据之前的联系产生的。

其中，标签传播算法（Label propagation）的核心思想为：相似的数据应该具有相同的标签。标签算法分为两大步骤：①构造相似矩阵；②扩散传播。

①构造相似矩阵

首先，为样本数据库构建一个图，图的节点即为一个数据点（即一个样本数据），包括标注案件和未标注案件，节点i和节点j的边表示两者之间的相似度；关于图的构建方法有很多，这里可以假设这个图是全连接的，节点i和节点j的边权重可以表示为：

(1)

其中，

表示节点i和节点j的边权重，

表示节点x的数据，

表示节点j的数据，

表示超参。

②扩散传播

通过节点之间的边传播标签，边的权重越大，表示两个节点越相似，那么标签越容易传播过去，这里可以定义一个N×N的概率转移矩阵P：

(2)

其中，

表示从节点i转移到节点j的概率。

假设有C个类（假设本实施例中包括两个类，即有风险类和无风险类）和L个有标签样本，定义一个L×C的标签矩阵YL，第i行表示第i个样本的标签指示向量，即如果第i个样本的类别是j，那么该行的第j个元素为1，其他为0。同样，对于U个无标签样本也可以定义一个U×C的标签矩阵YU，将标签矩阵YL和标签矩阵YU合并，即可以得到一个N×C的软标签矩阵F=[YL;YU]；软标签的意思是，保留样本i属于每个类别的概率，而不是互斥性的，这个样本以概率1只属于一个类。当然了，最后确定这个样本i的类别（即标签）的时候，是取max也就是概率最大的那个类作为样本i的类别。另外，对于软标签矩阵F中的软标签矩阵YU，由于是无标签矩阵，最开始的值是不确定的，这里可以根据经验值设定一个即可。

简单的LP（标签传播算法）算法如下：

1）执行传播：F=P*F

也就是，将矩阵P和矩阵F相乘，这一步，每个节点都将自己的label以P确定的概率传播给其他节点。如果两个节点越相似（在欧式空间中距离越近），那么相邻的label就越容易被自己的label赋予，就是更容易拉帮结派。

2）重置F中有标签样本的标签：FL=YL

因为有标签数据的label是事先确定的，所以每次传播完，它都得回归它本来的label，随着有标签数据不断的将自己的label传播出去，最后的类边界会穿越高密度区域，而停留在低密度的间隔中，相当于每个不同类别的有标签样本划分了不同的势力范围，形成不同的类别，此时，对于无标签的数据也通过标签传播被赋予了相应的标签。

3）重复步骤1）和2）直到F收敛。

步骤403，根据未标注案件的风险识别结果，对初始风险识别模型进行训练，得到预设风险识别模型。

经过上述步骤之后，可以得到未标注案件的风险识别结果，此时，可以根据未标注案件的风险识别结果，对初始风险识别模型进行迭代训练，通过不断的优化初始风险识别模型，提高初始风险识别模型的对案件风险的识别准确率，可以得到最终的预设风险识别模型。可选地，可以根据未标注案件的风险识别结果与未标注案件的参考风险识别结果，计算初始风险识别模型的损失值，进而根据损失值对初始风险识别模型中的参数进行修正，以此循环迭代。

本实施例中，计算机设备通过获取样本数据库，并将多个标注案件的风险相关数据、标注案件的风险识别结果以及多个未标注案件的风险相关数据、预设风险因子输入至初始风险识别模型中，计算未标注案件的风险识别结果；接着，根据未标注案件的风险识别结果，对初始风险识别模型进行训练，得到预设风险识别模型；也就是说，本实施例中，一方面通过未标注案件来丰富样本数据库，能提高训练样本的数据量，在训练样本增加的同时能够进一步提高风险识别模型的准确性；另一方面采用半监督算法进行风险识别模型的训练，还能降低对标签数据的标签标注压力，减少人工标注的工作量，另外，采用半监督算法进行风险识别模型的训练，还能提高模型的训练效率和模型的识别精度。

图5为另一个实施例中风险识别方法的流程示意图。本实施例涉及的是计算机设备根据未标注案件的风险识别结果，对初始风险识别模型进行训练，得到预设风险识别模型的其中一种可选的实现过程，在上述实施例的基础上，如图5所示，上述步骤403包括：

步骤501，根据风险识别结果，从未标注案件中确定与第一结果对应的目标未标注案件，确定目标未标注案件识别准确率。

其中，该第一结果为存在风险的结果。可选地，该风险识别结果可以包括存在风险的结果和未存在风险的结果，即包括有风险和无风险。

可选地，在确定风险识别模型的准确率时，可以根据有风险案件的识别率来代表风险识别模型的准确率；可选地，计算机设备可以根据未标注案件中风险识别结果为第一结果的所有目标未标注案件，确定这些存在风险的目标未标注案件中确定为有风险的案件的数量和这些所有未标注案件的数量之比，来计算得到目标未标注案件识别准确率；可选地，也可以从所有目标未标注案件中随机选取部分目标未标注案件，并计算部分目标未标注案件的识别准确率，以此来确定所有目标未标注案件识别准确率。

步骤502，在识别准确率小于预设阈值的情况下，基于候选第二类风险因子对目标未标注案件进行聚类，并根据聚类结果从候选第二类风险因子中，确定第二类风险因子。

其中，该候选第二类风险因子包括基于案件的外部风险相关数据所确定的候选风险因子。

也就是说，在初始风险识别模型的风险识别准确率低于预设阈值的情况下，需要对该初始风险识别模型进行迭代优化，此时，可以引入从外部平台获取的候选第二类风险因子，并从中确定出与风险相关的第二类风险因子，并进一步地，基于上述第一类风险因子和该第二类风险因子，重新计算未标注案件的风险识别结果，以优化初始风险识别模型的风险识别准确率。

可选地，针对每一个候选第二类风险因子，可以基于候选第二类风险因子对上述目标未标注案件进行聚类操作，如果聚类结果表示该候选第二类风险因子对案件是有风险案件的影响较大，则可以将该候选第二类风险因子确定为第二类风险因子；也就是说，可以采用候选第二类风险因子对目标未标注案件进行聚类处理，得到聚类结果，从聚类结果中，确定聚类中心的密集程度大于或等于预设密集程度阈值的目标聚类结果；接着，可以将与目标聚类结果对应的候选第二类风险因子，作为第二类风险因子。

步骤503，将第二类风险因子添加至初始风险因子中，生成新的初始风险因子并进行迭代计算得到未标注案件的新的风险识别结果，根据新的风险识别结果，从未标注案件中确定与第一结果对应的新的目标未标注案件，确定新的目标未标注案件识别准确率，直到识别准确率大于或等于预设阈值为止。

也就是说，在确定出第二类风险因子之后，可以根据上述第一类风险因子和该第二类风险因子重新计算上述未标注案件与标注案件之间的概率转移矩阵，进而，可以根据重新计算的概率转移矩阵结合传播算法，来确定各个未标注案件的风险识别结果。可选地，在重新计算案件之间的概率转移矩阵时，可以调整第一类风险因子和第二类风险因子的权重大小，例如：可以增加第二类风险因子的权重大小，降低第一类风险因子的权重大小；本实施例对风险因子的权重大小的调整并不做具体限定。

进一步地，在得到各个未标注案件的风险识别结果之后，再重新计算未标注案件中目标未标注案件的识别准确率，并判断识别准确率是否小于预设阈值；如果还是小于预设阈值，那么继续执行上述步骤502，重新确定第二类风险因子，或者从剩余的候选第二类风险因子中确定第二类风险因子，并添加到初始风险因子中；以此循环，直至目标未标注案件的识别准确率大于或等于预设阈值为止，预设风险识别模型训练结果。

本实施例中，计算机设备根据风险识别结果，从未标注案件中确定与第一结果对应的目标未标注案件，确定目标未标注案件识别准确率；在识别准确率小于预设阈值的情况下，基于候选第二类风险因子对目标未标注案件进行聚类，并根据聚类结果从候选第二类风险因子中，确定第二类风险因子；将第二类风险因子添加至初始风险因子中，生成新的初始风险因子并进行迭代计算得到未标注案件的新的风险识别结果，根据新的风险识别结果，从未标注案件中确定与第一结果对应的新的目标未标注案件，确定新的目标未标注案件识别准确率，直到识别准确率大于或等于预设阈值为止；也就是说，本实施例中，在迭代训练初始风险识别模型的过程中，引入从外部第三方平台所获取到的与风险相关的第二类风险因子，计算案件之间的相似度，通过增加案件的数据维度，来提高案件相似度的计算准确性，进而，在案件相似度计算更准确的情况下，能够提高风险识别的准确性。

在一个实施例中，如图6所示，提供了一种风险识别模型的训练方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

步骤601，获取样本数据库；该样本数据库包括标注案件的风险相关数据、标注案件的风险识别结果和未标注案件的风险相关数据。

步骤602，将多个标注案件的风险相关数据、标注案件的风险识别结果以及多个未标注案件的风险相关数据、预设风险因子输入至初始风险识别模型中，计算未标注案件的风险识别结果。

步骤603，根据未标注案件的风险识别结果，对初始风险识别模型进行训练，得到预设风险识别模型。

具体实现过程可以参照上述图4所示的实施例的相关论述，在此不再赘述。

图7为另一个实施例中风险识别方法的流程示意图。本实施例涉及的是计算机设备获取标注案件的风险识别结果的其中一种可选的实现过程，在上述实施例的基础上，如图7所示，上述步骤601包括：

步骤701，获取样本数据库中标注案件的风险相关数据和标注案件对应的初始风险识别结果。

可选地，该标注案件对应的初始风险识别结果可以是专家基于第一类风险因子对应的风险规则，对各个标注案件进行风险判断后所得到的标注案件的风险识别结果；第一类风险因子可以是专家根据历史理赔案件从案件的所有相关数据中所确定的与风险相关的因子，该第一类风险因子对应的风险规则可以是基于历史理赔案件的数据所确定的该风险因子容易产生风险的规则；如：在车流量较大的十字路口容易发生交通事故，则第一类风险因子可以是车祸发生地点，该第一类风险因子对应的风险规则可以是车流量较大的十字路口或者历史发生交通事故较多的十字路口。

步骤702，采用从第三方平台获取的候选第二类风险因子，对标注案件的风险相关数据进行风险识别，得到标注案件对应的中间识别结果。

步骤703，根据中间识别结果和初始风险识别结果，确定标注案件对应的风险识别结果。

可选地，在中间识别结果和初始风险识别结果相同的情况下，可以将标注案件对应的初始风险识别结果作为该标注案件对应的风险识别结果；在中间识别结果和初始风险识别结果不同的情况下，可以进一步由专家决策来确定该标注案件对应的风险识别结果，或者，也可以将该标注案件确定为噪音数据，在后续模型训练过程中，可以将这些噪音数据剔除。例如：在采用候选第二类风险因子判断出标注案件为有风险案件，以及该标注案件的初始风险识别结果也为有风险案件的情况下，可以确定该标注案件的风险识别结果为有风险案件；在采用候选第二类风险因子判断出标注案件为有风险案件，但该标注案件的初始风险识别结果为无风险案件的情况下，可以将该标注案件发送至专家决策系统，由专家决策系统进一步确定该标注案件是否为有风险案件，以此来提高标注案件的风险识别结果的准确性，即提高样本数据的标签准确性，还能提高有效样本的数量。

本实施例中，计算机设备通过获取样本数据库中标注案件的风险相关数据和标注案件对应的初始风险识别结果；并采用从第三方平台获取的候选第二类风险因子，对标注案件的风险相关数据进行风险识别，得到标注案件对应的中间识别结果；接着，根据中间识别结果和初始风险识别结果，确定标注案件对应的风险识别结果；也就是说，本申请实施例中，在确定标注案件的风险识别结果时，引入了第三方平台的候选第二类风险因子，通过增加风险评判的数据维度，来提高风险识别结果的准确性，即增加有效样本的数量，进而，在样本数据中的标注案件的标签准确性较高的情况下，能够大大提高基于该标注案件的标签进行半监督训练的风险识别模型的准确性，减少风险识别模型的误判和错判。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的风险识别方法的风险识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个风险识别装置实施例中的具体限定可以参见上文中对于风险识别方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种风险识别装置，包括：第一获取模块801、风险识别模块802和输出模块803，其中：

第一获取模块801，用于获取待识别案件的风险相关数据；

风险识别模块802，用于将待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果；预设风险识别模型为基于样本数据库中标注案件的风险相关数据、未标注案件的风险相关数据结合预设风险因子，对初始风险识别模型进行训练所得到的模型；标注案件为预先标注了风险识别结果的案件，未标注案件为预先未标注风险识别结果的案件；

输出模块803，用于输出风险识别结果。

在其中一个实施例中，上述风险识别模块802包括第一计算单元和第一确定单元；其中，第一计算单元，用于根据待识别案件的风险相关数据、预设风险因子，计算待识别案件与标注案件数据库中的多个标注案件之间的相似度，得到待识别案件与各标注案件之间的相似度；第一确定单元，用于基于待识别案件与各标注案件之间的相似度、各标注案件的风险识别结果，确定待识别案件的风险识别结果。

在其中一个实施例中，该装置还包括第二获取模块、计算模块和训练模块；其中，第二获取模块，用于获取样本数据库；计算模块，用于将多个标注案件的风险相关数据、标注案件的风险识别结果以及多个未标注案件的风险相关数据、预设风险因子输入至初始风险识别模型中，计算未标注案件的风险识别结果；训练模块，用于根据未标注案件的风险识别结果，对初始风险识别模型进行训练，得到预设风险识别模型。

在其中一个实施例中，计算模块包括第二计算单元和生成单元；其中，第二计算单元，用于根据标注案件的风险相关数据、未标注案件的风险相关数据以及初始风险因子，计算未标注案件与标注案件之间的概率转移矩阵；该初始风险因子包括第一类风险因子；生成单元，用于根据未标注案件与标注案件之间的概率转移矩阵结合传播算法，生成未标注案件的风险识别结果。

在其中一个实施例中，训练模块包括第二确定单元、第三确定单元和迭代单元；其中，第二确定单元，用于根据风险识别结果，从未标注案件中确定与第一结果对应的目标未标注案件，确定目标未标注案件识别准确率；该第一结果为存在风险的结果；第三确定单元，用于在识别准确率小于预设阈值的情况下，基于候选第二类风险因子对目标未标注案件进行聚类，并根据聚类结果从候选第二类风险因子中，确定第二类风险因子；其中，该候选第二类风险因子包括基于案件的外部风险相关数据所确定的候选风险因子；迭代单元，用于将第二类风险因子添加至初始风险因子中，生成新的初始风险因子并进行迭代计算得到未标注案件的新的风险识别结果，根据新的风险识别结果，从未标注案件中确定与第一结果对应的新的目标未标注案件，确定新的目标未标注案件识别准确率，直到识别准确率大于或等于预设阈值为止。

在其中一个实施例中，上述第二确定单元，具体用于采用候选第二类风险因子对目标未标注案件进行聚类处理，得到聚类结果；从聚类结果中，确定聚类中心的密集程度大于或等于预设密集程度阈值的目标聚类结果；将与目标聚类结果对应的候选第二类风险因子，作为第二类风险因子。

同样的，基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的风险识别模型的训练方法的风险识别模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个风险识别装置实施例中的具体限定可以参见上文中对于风险识别模型的训练方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种风险识别模型的训练装置，包括：获取模块901、计算模块902和训练模块903，其中：

获取模块901，用于获取样本数据库；样本数据库包括标注案件的风险相关数据、标注案件的风险识别结果和未标注案件的风险相关数据；

计算模块902，用于将多个标注案件的风险相关数据、标注案件的风险识别结果以及多个未标注案件的风险相关数据、预设风险因子输入至初始风险识别模型中，计算未标注案件的风险识别结果；

训练模块903，用于根据未标注案件的风险识别结果，对初始风险识别模型进行训练，得到预设风险识别模型。

在其中一个实施例中，获取模块901包括获取单元、标注单元和确定单元；其中，获取单元，用于获取样本数据库中标注案件的风险相关数据和标注案件对应的初始风险识别结果；标注单元，用于采用从第三方平台获取的候选第二类风险因子，对标注案件的风险相关数据进行风险识别，得到标注案件对应的中间识别结果；确定单元，用于根据中间识别结果和初始风险识别结果，确定标注案件对应的风险识别结果。

上述风险识别装置、风险识别模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各实施例中的风险识别方法以及上述各实施例中的风险识别模型的训练方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤上述各实施例中的风险识别方法以及上述各实施例中的风险识别模型的训练方法的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤上述各实施例中的风险识别方法以及上述各实施例中的风险识别模型的训练方法的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种风险识别方法，其特征在于，所述方法包括：

获取待识别案件的风险相关数据；

将所述待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果；所述预设风险识别模型为基于样本数据库中标注案件的风险相关数据、未标注案件的风险相关数据结合预设风险因子，对初始风险识别模型进行训练所得到的模型；所述标注案件为预先标注了风险识别结果的案件，所述未标注案件为预先未标注风险识别结果的案件；

输出所述风险识别结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果，包括：

根据所述待识别案件的风险相关数据、所述预设风险因子，计算所述待识别案件与标注案件数据库中的多个标注案件之间的相似度，得到所述待识别案件与各所述标注案件之间的相似度；

基于所述待识别案件与各所述标注案件之间的相似度、各所述标注案件的风险识别结果，确定所述待识别案件的风险识别结果。

3.根据权利要求1所述的方法，其特征在于，所述预设风险因子包括第一类风险因子及第二类风险因子；所述第一类风险因子包括基于案件的内部风险相关数据确定的风险因子；所述第二类风险因子包括基于所述案件的外部风险相关数据所确定的风险因子；所述外部风险相关数据包括从第三方平台所获取到的与所述案件关联的风险数据。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取所述样本数据库；

将多个所述标注案件的风险相关数据、所述标注案件的风险识别结果以及多个所述未标注案件的风险相关数据、所述预设风险因子输入至所述初始风险识别模型中，计算所述未标注案件的风险识别结果；

根据所述未标注案件的风险识别结果，对所述初始风险识别模型进行训练，得到所述预设风险识别模型。

5.根据权利要求4所述的方法，其特征在于，所述将所述多个所述标注案件的风险相关数据、所述标注案件的风险识别结果以及多个所述未标注案件的风险相关数据、所述预设风险因子输入至所述初始风险识别模型中，计算所述未标注案件的风险识别结果，包括：

根据所述标注案件的风险相关数据、所述未标注案件的风险相关数据以及初始风险因子，计算所述未标注案件与所述标注案件之间的概率转移矩阵；所述初始风险因子包括所述第一类风险因子；

根据所述未标注案件与所述标注案件之间的概率转移矩阵结合传播算法，生成所述未标注案件的风险识别结果。

6.根据权利要求5所述的方法，其特征在于，所述根据所述未标注案件的风险识别结果，对所述初始风险识别模型进行训练，得到所述预设风险识别模型，包括：

根据所述风险识别结果，从所述未标注案件中确定与第一结果对应的目标未标注案件，确定所述目标未标注案件识别准确率；所述第一结果为存在风险的结果；

若所述识别准确率小于预设阈值，则基于候选第二类风险因子对所述目标未标注案件进行聚类，并根据聚类结果从所述候选第二类风险因子中，确定所述第二类风险因子；其中，所述候选第二类风险因子包括基于所述案件的外部风险相关数据所确定的候选风险因子；

将所述第二类风险因子添加至所述初始风险因子中，生成新的初始风险因子并进行迭代计算得到所述未标注案件的新的风险识别结果，根据所述新的风险识别结果，从所述未标注案件中确定与第一结果对应的新的目标未标注案件，确定所述新的目标未标注案件识别准确率，直到所述识别准确率大于或等于所述预设阈值为止。

7.根据权利要求6所述的方法，其特征在于，所述基于候选第二类风险因子对所述目标未标注案件进行聚类，并根据聚类结果从所述候选第二类风险因子中，确定所述第二类风险因子，包括：

采用所述候选第二类风险因子对所述目标未标注案件进行聚类处理，得到聚类结果；

从所述聚类结果中，确定聚类中心的密集程度大于或等于预设密集程度阈值的目标聚类结果；

将与所述目标聚类结果对应的所述候选第二类风险因子，作为所述第二类风险因子。

8.一种风险识别模型的训练方法，所述方法包括：

获取样本数据库；所述样本数据库包括标注案件的风险相关数据、所述标注案件的风险识别结果和未标注案件的风险相关数据；

将多个所述标注案件的风险相关数据、所述标注案件的风险识别结果以及多个所述未标注案件的风险相关数据、预设风险因子输入至初始风险识别模型中，计算所述未标注案件的风险识别结果；

根据所述未标注案件的风险识别结果，对所述初始风险识别模型进行训练，得到预设风险识别模型。

9.根据权利要求8所述的方法，其特征在于，所述获取所述标注案件的风险识别结果，包括：

获取所述样本数据库中标注案件的风险相关数据和所述标注案件对应的初始风险识别结果；

采用从第三方平台获取的候选第二类风险因子，对所述标注案件的风险相关数据进行风险识别，得到所述标注案件对应的中间识别结果；

根据所述中间识别结果和所述初始风险识别结果，确定所述标注案件对应的风险识别结果。

10.一种风险识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别案件的风险相关数据；

风险识别模块，用于将所述待识别案件的风险相关数据输入至预设风险识别模型中进行风险识别，生成风险识别结果；所述预设风险识别模型为基于样本数据库中标注案件的风险相关数据、未标注案件的风险相关数据结合预设风险因子，对初始风险识别模型进行训练所得到的模型；所述标注案件为预先标注了风险识别结果的案件，所述未标注案件为预先未标注风险识别结果的案件；

输出模块，用于输出所述风险识别结果。

11.一种风险识别模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取样本数据库；所述样本数据库包括标注案件的风险相关数据、所述标注案件的风险识别结果和未标注案件的风险相关数据；

计算模块，用于将多个所述标注案件的风险相关数据、所述标注案件的风险识别结果以及多个所述未标注案件的风险相关数据、预设风险因子输入至初始风险识别模型中，计算所述未标注案件的风险识别结果；

训练模块，用于根据所述未标注案件的风险识别结果，对所述初始风险识别模型进行训练，得到预设风险识别模型。

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。