CN111626886B

CN111626886B - 基于多方协作的工程履约保证保险风险识别方法与平台

Info

Publication number: CN111626886B
Application number: CN202010750631.0A
Authority: CN
Inventors: 谢仑辰; 徐学武; 曾雪强; 史清江; 陈海军; 化允; 陈华龙
Original assignee: Gongbao Technology Zhejiang Co ltd
Current assignee: Gongbao Technology Zhejiang Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-10-30
Anticipated expiration: 2040-07-30
Also published as: CN111626886A

Abstract

本发明公开了一种基于多方协作的工程履约保证保险风险识别方法与平台，该方法包括：首先，参与协作训练风险评估模型的各方对本地存储的工程项目信息数据进行预处理操作和值映射操作得到隐私保护后的工程业务数据；然后，各参与方与云端服务器通过分布式协同完成风险评估模型的训练，得到全局风险评估模型；最后，将待评估的工程项目数据处理后输入到全局风险评估模型进行风险识别预测。本发明可以在保护数据隐私的前提下进行跨数据源多方协作风险识别，在保障工程信息数据安全的同时提升风险评估模型的风险识别能力。

Description

基于多方协作的工程履约保证保险风险识别方法与平台

技术领域

本发明涉及工程履约保证保险与机器学习技术领域，具体涉及一种基于多方协作的工程履约保证保险风险识别方法与平台。

背景技术

建设工程项目的施工工艺和施工流程复杂，项目参与方较多，项目周期长，涉及面广，施工单位的违约会造成多方面的损失，因此引入建设工程履约保证保险的风控机制尤为重要，能够有效帮助建筑企业释放现金保证金压力，减轻企业负担。对于保险行业而言，开展建设工程履约保证保险面临的主要难题是数据和风控，保险公司对于建设工程项目专业知识和技术的缺乏，导致对投保人、投保项目和被保险人的风险难以评估。而非融资类保证保险审批速度要求较快，无法对投保人、工程项目、被保险人进行全面审查。

造成工程违约的风险因素具有多样性、普遍性、客观性和偶然性等特性，导致履约的风险因素数量庞大且各风险因素之间具有很强的关联性。当前的工程履约保证保险多以人力判断为主，耗时长、未利用到广泛的项目数据信息，此为目前风险判别方法的不足。而本发明的风险识别方法利用到大量数据信息与智能算法模型，对投保人、工程项目、被保险人的风险因素进行整合分析，能够真正达到对建设工程违约风险进行快速识别，辅助保险公司降低承保风险。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于多方协作的工程履约保证保险风险识别方法与平台。

本发明的目的是通过以下技术方案来实现的：一种基于多方协作的工程履约保证保险风险识别方法，所述方法包括如下步骤：

S1：将参与协作训练风险评估模型的参与方分成主参与方和合作参与方，云端服务器设定最大训练轮次为

；

S2：各参与方对本地存储的工程项目信息数据进行预处理操作和值映射操作得到隐私保护后的工程业务数据；

S3：云端服务器设定初始的训练轮次t=1，各参与方设定模型的初始预测值为0，然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并发送给云端服务器；

S4：云端服务器收到模型参数后进行汇总训练，将更新后的模型发送至各参与方；

S5：各参与方基于本地的工程业务数据和更新后的模型的预测值计算相应的模型参数并将参数发送给云端服务器；

S6：增加训练轮次t=t+1，重复步骤S4-S5直至达到最大训练轮次

并输出新的全局风险评估模型；

S7：主参与方的工程业务数据保持不变，而每个合作参与方利用步骤S6训练得到的全局风险评估模型对本地工程业务数据进行预测，并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据；

S8：重复步骤S3-S7直至全局风险评估模型的预测性能无法得到进一步改善，得到最终的全局风险评估模型；

S9：对待评估工程项目的数据进行步骤S2所述的预处理操作，然后将预处理结果输入到步骤S8得到的最终的全局风险评估模型得到最终的风险识别结果。

进一步地，步骤S2具体包括：

S21：各个参与方对于工程业务数据中以文字形式描述的类别特征进行独热编码处理得到离散数值型特征，同时，各个参与方对于工程业务数据中以数值形式描述的特征利用中位值填充方法对缺失值进行填充，完成数据预处理；

S22：主参与方对预处理后的本地工程业务数据中每个维度特征i，计算其最大值

与最小值

，并设定区间数N，根据如下公式计算步长

：

然后主参与方对于第i维特征对应的本地所有数据值data执行如下值映射操作：

此处

代表四舍五入，

为值映射结果；

S23：主参与方将每个维度特征i对应的最小值

和步长

发送给合作参与方，合作参与方按照S22的过程对本地工程业务数据完成值映射操作。

进一步地，步骤S3具体包括：

S31：各个参与方对于本地工程业务数据的每一维度特征k，根据获得的

和

确定均匀切分点

和相应的N个划分区间，m为切分点；

S32：各个参与方j对于落在区间

的本地工程业务数据样本

，在模型初始预测值

这一点上计算该样本对应的模型损失函数

的一阶导数

和二阶导数

，

为与样本

对应的样本类别，然后按每一维度特征k求和得到一阶导数求和的值

和二阶导数求和的值

；

为样本

的第k 个维度特征取值；

S33：各参与方将模型参数

传输到云端服务器。

进一步地，步骤S4具体包括：

S41：云端服务器在接收到各个参与方发送过来的模型参数

和

后，汇总计算得到所有参与方的模型参数的求和值

和

；

S42：在当前训练轮次t，遍历所有维度特征k的所有划分点，根据划分点得到左分支集合

与右分支集合

，计算增益函数：

其中，

与

为调整模型过拟合程度的超参数，I为总划分点集合，通过比较不同划分下的

，选取最大值对应的划分为最优划分，进入左右分支并进行递归计算直至

都小于0，输出一个新的树分类器

；

S43：合并当前获得的所有树分类器得到新的树组合分类器模型

，并将

发送给所有参与方。

进一步地，步骤S5具体包括：

S51：各个参与方在收到云端服务器发送过来的树组合分类器模型后，对本地工程业务数据样本

进行预测得到第t轮的预测结果

：

S52：各个参与方j对于落在区间

的样本

，计算该样本关于

对应的模型损失函数

的一阶导数

和二阶导数

，然后按每一维度特征k求和得到

和

；

S53：各参与方将模型参数

传输到云端服务器。

一种基于多方协作的工程履约保证保险风险识别平台，所述平台包括数据输入模块、数据处理模块、模型训练模块、风险评估模块、云端服务器以及参与协作训练风险评估模型的主参与方和合作参与方；

所述数据输入模块，用于接受需要进行风险识别的工程业务数据，该模块包括向模型输入用于训练的工程业务数据或指定某需要风险评估的工程业务数据；

所述数据处理模块，用于对数据输入模块的工程业务数据执行处理操作，所述处理操作用于对所述数据进行预处理和值映射得到隐私保护后的工程业务数据；

所述主参与方和合作参与方，设定模型的初始预测值为0，然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并通过模型训练模块发送给云端服务器；

所述云端服务器设定初始的训练轮次t=1，将收到各参与方发来的模型参数后通过模型训练模块进行汇总训练，并将更新后的模型发送至各参与方重新计算模型参数，进入下一轮训练，直到训练轮次为达到最大训练轮次

后，得到全局风险评估模型；

所述模型训练模块，用于调用数据处理模块处理完成的数据，通过主参与方和合作参与方以及云端服务器对模型进行训练，并将合作参与方通过全局风险评估模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据，重新进行模型训练，直至全局风险评估模型的预测性能无法得到进一步改善，得到用于实际预测的最终的全局风险评估模型；

所述风险评估模块，依据模型训练模块得到的最终的全局风险评估模型，给出数据处理模块处理后的需要进行预测的工程项目数据的风险评估结果。

进一步地，所述数据输入模块包括从外界接受统一方式输入的数据，并存入数据库。

进一步地，所述数据处理模块包括文字特征离散化模块、数值特征过滤模块和数据映射模块：

所述文字特征离散化模块，用于针对工程业务数据的文字量进行独热编码处理，转化为离散数字数据；

所述数值特征过滤模块，用于针对工程业务数据的数值特征进行缺失值填充处理，获得模型可用的数据；

所述数据映射模块，以主参与方为标准，将拥有的工程业务数据映射到新的数据区间内，主参与方进行映射所需的步长和业务数据最小值向合作参与方广播，合作参与方执行相同的映射过程；具体如下：

主参与方对预处理后的本地工程业务数据中每个维度特征i，计算其最大值

与最小值

，并设定区间数N，根据如下公式计算步长

：

此处

代表四舍五入，

为值映射结果；

主参与方将每个维度特征i对应的最小值

和步长

发送给合作参与方，合作参与方按照与主参与方相同的操作对本地工程业务数据完成值映射操作。

进一步地，模型训练模块包括参数发送模块、模型汇总与训练模块和数据更新模块：

所述参数发送模块，用于使不同参与方计算模型参数并传输到云端服务器；具体如下：

a，各个参与方对于本地工程业务数据的每一维度特征k，根据获得的

和

确定均匀切分点

和相应的N个划分区间，m为切分点；

b，各个参与方j对于落在区间

的本地工程业务数据样本

，在模型初始预测值

或者第t轮的预测结果

上计算该样本对应的模型损失函数

或

的一阶导数

和二阶导数

，

为与样本

和二阶导数求和的值

；

为样本

的第k个维度特征取值；

c，各参与方将模型参数

传输到云端服务器；

所述模型汇总与训练模块，用于汇总各参与方上传的模型参数，训练并产生基准模型，利用分布式算法进行合并训练，并向参与方进行模型分发；具体如下：

a，云端服务器在接收到各个参与方发送过来的模型参数

和

后，通过模型汇总与训练模块汇总计算得到所有参与方的模型参数的求和值

和

；

b，在当前训练轮次t，遍历所有维度特征k的所有划分点，根据划分点得到左分支集合

与右分支集合

，计算增益函数：

其中，

与

都小于0，输出一个新的树分类器

；

c，合并当前获得的所有树分类器得到新的树组合分类器模型

，并将

发送给所有参与方；各个参与方在收到云端服务器发送过来的树组合分类器模型后，对本地工程业务数据样本

进行预测得到第t轮的预测结果

：

所述数据更新模块，用于每个合作参与方利用已训练的模型，对本地工程业务数据进行预测，并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据。

本发明的有益效果：本发明意在解决当数据分布于不同机构，每一方拥有数据较少，造成训练困难的情景，作为主要参与方的数据拥有机构可以通过协同多方机构，在不交换真实数据的情况下，与不同机构进行协同训练，从而增加训练数据量，并训练得到一个全局风险评估模型，在保障工程信息数据安全的同时提升风险评估模型的风险识别能力。

附图说明

图1为本发明提供的基于多方协作的工程履约保证保险风险识别方法流程图；

图2为本发明提供的各参与方与云端服务器交互示意图；

图3为本发明提供的数据处理与变换过程过程示意图；

图4为本发明提供的模型参数计算过程示意图；

图5为本发明提供的汇总训练与模型更新过程示意图；

图6为本发明提供的模型参数更新计算示意图；

图7为本发明提供的基于多方协作的工程履约保证保险风险识别平台结构示意图；

图8为工程履约保证保险领域特征结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的说明，所描述的实施例旨在便于对本发明的理解，但对其不起任何限定作用。

本发明主要关注于当各个参与者的用户群体重叠较少，数据特征重叠较多的情况下，取出用户群体不同、数据特征相同的那一部分进行联合机器学习，比如两家不同的保险公司，分布在不同的区域，因此拥有的客户不同，然而由于保险公司业务的重叠，数据特征范围基本一致。为了利用尽可能多的数据训练一个科学的模型，可以将这几个公司作为参与者，进行协同训练。

本发明提出了一种基于多方协作的工程履约保证保险风险识别方法，主要流程如图1至图6所示，包括如下步骤：

1. 将参与协作训练风险评估模型的参与方分成主参与方和合作参与方，云端服务器设定最大训练轮次为

。

为适应本发明涉及的协同训练构想，本实施例设定一种应用场景为，几个地区的相同类型机构（公司）各自拥有相同特征维度的数据，但用户不重叠，如图8所示，为工程履约保证保险领域特征的结构示意图。在此基础之上，通过结合不同机构数据，可以协同训练一个更加强大的模型。本发明提出的协同训练学习在实际场景中数据是互不相交的。本实施例中为模拟该效果，在本地使用一种分布式运算框架，设置三个计算节点，第一个节点为主参与方节点，分到了56.3%的数据，其中80%为训练集，20%为测试集，第二个节点分到了 19.9%的数据，第三个节点分到了23.8%的数据，第二个节点和第三个节点都是合作参与方节点，三个参与方之间数据互不相交。用于协调计算的云端服务器以第一个节点作为模拟，参数的发送和模型的更新通过第一个节点完成。最后，预先设定模型训练轮次

。

2. 各参与方对本地存储的工程项目信息数据进行预处理操作和值映射操作。

A.文字特征编码与数值特征填充

本发明所用到的算法不可对文字特征进行识别，因此需要对其进行转换，以利于模型训练。本实施例中使用独热编码，其含义为使用N位寄存器存储N种状态，每个状态都有独立的寄存器位，且寄存器中只有一位有效。例如，“施工难度”特征包含三种取值，因此可以被拓展为三个特征。原特征对应转换后的N位编码特征中，仅其中之一为状态1，其余为0，因此“简单”这一取值被转换为“施工难度_简单”、“施工难度_一般”、“施工难度_复杂”分别取1、0、0三个取值的编码。

表1 文字量特征编码示意表

施工难度	施工难度_简单	施工难度_一般	施工难度_复杂
				简单	1	0	0
一般	0	1	0
				复杂	0	0	1

另外，搜集的实际项目信息中有部分缺失值。考虑到数据的实际含义与算法部署的要求，对于该类缺失数据，一种填充方法是每个参与方对本地数据的缺失特征使用同一特征维度数据的中位数进行填充，避免对数据分布与实际含义造成过大的影响。

B.主参与方进行数据映射

为适应本发明的隐私保护构想，需要令数据在进行计算的时候与其真实值不同。本发明利用的增益函数来源于XGBoost算法框架，其基于回归树，仅关心同一特征内的数据顺序，因此可以采用特征映射形式，在保证数据顺序的同时隐藏数据的真实值，从而达到保护隐私的目的。

在本实施例中，主参与方节点对预处理后的本地数据中每个维度特征i，计算其最大值

与最小值

。本例设定区间数N=400，根据如下公式计算步长

：

然后主参与方节点对于第i维特征对应的本地所有数据值data执行如下值映射操作：

此处

代表四舍五入，

为值映射结果。

C.合作参与方进行数据映射

在本实施例三个参与方的设定下，步骤2的子步骤B体现的值映射过程具体为：主参与方计算每个维度特征i对应的最小值

和步长

并作为全局变量，供合作参与方节点调用。合作参与方按照步骤2的子步骤B所述的过程对本地数据完成值映射操作；

3. 云端服务器设定初始的训练轮次t=1，各参与方设定模型的初始预测值为0，然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并发送给云端服务器。

A.确定划分区间

在实际计算中，各个参与方对于本地工程业务数据的每一维度特征k，需要根据获得的

和

确定均匀切分点

和相应的N个划分区间，m为切分点。实施例中确定数据被映射到N=400个区间内，切分点的取值为

。

B.计算模型参数

各个参与方j对于落在区间

的本地工程业务数据样本

，在模型初始预测值

这一点上计算该样本对应的模型损失函数

的一阶导数

和二阶导数

。本实施例中，设定损失函数

为平方损失函数。得到导数后，然后按每一维度k求和得到一阶导数求和的值

和二阶导数求和的值

；

为样本

的第k个维度特征取值；

C.模型参数传输

各参与方节点将自身数据计算出的区间求和导数作为模型参数

传输到模拟云端服务器的主参与方节点。

4. 云端服务器进行汇总训练，将更新后的模型发送至各参与方。

A.云端服务器参数汇总

主参与方节点作为模拟的云端服务器，在接收到各个参与方 j发送过来的模型参数

和

后，汇总计算，按照每一特征k的划分区间进行求和，得到

和

；

B.增益函数计算

在当前训练轮次t，遍历所有维度特征k的所有划分点，根据划分点得到左分支集合

与右分支集合

，计算增益函数：

其中，

与

，选取最大值对应的划分为最优划分。在确定最优划分后，需要进入左右分支，并对各分支分别进行递归计算，递归停止的条件为当前分支计算的

小于0，说明划分无增益。最后，所有分支联合为一个新的树分类器

；

C.模型更新与下发

模拟云端服务器的主参与方节点通过合并从第一轮到当前t轮获得的所有树分类器，得到新的树组合分类器模型

，并将

发送给所有参与方；

5. 各参与方基于本地的工程业务数据和更新后的模型的预测值计算相应的模型参数并将参数发送给云端服务器。

A.利用新的树分类器得到预测结果

各参与方节点在收到主参与方节点发送过来的树组合分类器模型

后，对本地工程业务数据样本

进行预测得到第t轮的预测结果

：

B.计算模型参数

各个参与方j对于落在区间

的样本

，计算该样本关于

对应的模型损失函数

的一阶导数

和二阶导数

，然后按每一维度特征k求和得到

和

；

C.模型参数传输

各参与方将自身数据计算出的区间求和导数作为模型参数

传输到模拟云端服务器的主参与方节点。

6. 增加训练轮次t=t+1，重复步骤4-5直至达到最大训练轮次

并输出新的全局风险评估模型。

通过步骤5的参数更新，重复步骤4即可进行t+1轮次的训练，并在先前数据的基础上得到新的一棵树分类器模型

。该过程需要不断迭代，直到

，停止训练。结束后，将整合后的全局风险评估模型

向所有合作参与方下发。

判别模型得出的样本判别拥有以下四种情况：

a.真阳性类

：样本真实类别为阳性，模型预测结果也是阳性；

b.真阴性类

：样本真实类别为阴性，模型预测结果也是阴性；

c.假阳性类

：样本真实类别为阴性，模型预测结果是阳性；

d.假阴性类

：样本真实类别为阳性，模型预测结果是阴性。

本发明涉及的数据为二分类数据，包含“投保”与“不投保”两个类别。因“不投保” 类数据较少，且对这一分类数据进行错误判别会对公司造成较大的损失，因此模型的比较标准以“不投保”数据的模型判别指标为主。若定义本发明所用的“不投保”数据为阳性类

，“投保”数据为阴性类

，则可以计算出“不投保”数据的精确率Precision、召回率Recall、F1-Score，其含义如下：

a.精确率Precision：

被判别为阳性的数据样本中真实类别为阳性的比例，即模型针对阳性类的判别准确度；

b.召回率Recall：

真实类别为阳性的数据样本中被判别为阳性的比例；

c.F1-Score：

F1-Score是精确率与召回率的调和平均。

另外也需要比较所有样本被判别正确的比例，即总体准确率：

本发明使用的模型训练增益函数基于XGBoost算法。实施例对分类预测中常用的逻辑回归（LR）、支持向量机（SVM）同该算法进行了对比。首先将未经映射变换的数据输入XGBoost模型进行对比，“不投保”类的模型判别指标与准确率对比结果如表2所示。

表2 三种模型的“不投保”类模型指标与准确率对比

观察表2中的指标与准确率的对比，XGBoost算法具有更好的性能，可以为工程项目风险评估提供更为稳定、优秀的结果。因此本发明在模型构建上选用了XGBoost算法的增益函数。

接下来需要验证该协作学习模型与传统的集中式XGBoost模型的结果。针对变换过后的数据，分别训练协作学习模型和集中式的XGBoost模型，并以主参与方的测试数据集作为测试集，输出“不投保”类指标结果如表3所示。

表3 协同模型与集中式XGBoost模型结果对比

观察发现，两种模型的指标之间差异较小，总体准确率均较高。由于能解决数据孤岛问题，协同学习的模型有较大的使用价值。

7.主参与方的工程业务数据保持不变，而每个合作参与方利用当前训练得到的全局风险评估模型对本地工程业务数据进行预测，并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据。

实施例中，主参与方节点的数据分为训练与测试数据集合，该部分数据固定。而在一次数据更新过程中，合作参与方节点通过使用步骤6得到的全局风险评估模型，分别对自身的所有数据进行预测。当分类值与真实分类值不符时，将数据取出，最终重新整理为工程业务数据，以备使用。主参与方在使用自身数据的基础上，可以只利用合作参与方的少量错误分类数据，进行步骤3-6的协同训练。该过程减少了数据传输，同时针对上一轮模型的分类错误进行训练，因此能够有更好的效果。

8. 重复步骤3-7直至全局风险评估模型的预测性能无法得到进一步改善。

在新一轮训练中，因为数据文件的更新，合作参与方节点仅对被挑选过的错误数据进行

与

的计算，并传输到协调者之中。此时，主参与方节点对训练数据通过步骤3 的计算，得到相应的梯度值，并通过步骤4在中心计算节点被汇总，通过训练得出一个新的模型，并利用测试数据进行测试，得到新的模型指标。

本实施例中，经过6次步骤3-7的循环，得到测试数据集的“不投保”类最终判别指标与总体准确率结果如表4所示。

表4 优化前后结果对比

	<i>Precision</i>	<i>Recall</i>	<i>F1-score</i>	<i>Accuracy</i>
					原始模型	0.44	0.22	0.30	0.89
优化后模型	0.50	0.39	0.44	0.89

不难看出，通过针对挑选错误数据进行训练的迭代优化，最终模型得到了比初始模型更优秀的结果。需要注意，步骤3-7的重复过程不可过多，否则会导致模型的过拟合。

9．对待评估工程项目的数据进行步骤2所述的数据预处理操作，然后将预处理结果输入到步骤8得到的全局风险评估模型得到最终的风险识别结果。

本实施例以主参与方为例，对于新输入的工程项目数据，主参与方作为给出评估的主体，使用本地的数据作为协助，利用步骤2中同样的预处理与值映射操作，将预处理的工程业务数据输入步骤8结束迭代后确定的最终全局风险评估模型，即可得到风险识别结果。

如图7所示，本发明还提出一种基于多方协作的工程履约保证保险风险识别平台，基于上述实施例，所述平台包括数据输入模块、数据处理模块、模型训练模块、风险评估模块、云端服务器以及参与协作训练风险评估模型的主参与方和合作参与方；

后，得到全局风险评估模型；

所述文字特征离散化模块，用于针对所述工程业务数据的文字量进行独热编码处理，转化为离散数字数据；

所述数值特征过滤模块，用于针对所述工程业务数据的数值特征进行缺失值填充处理，获得模型可用的数据；

所述数据映射模块，以主参与方为标准，将拥有的工程业务数据映射到新的数据区间内，主参与方进行映射所需的步长和业务数据最小值向合作参与方广播，合作参与方执行相同的映射过程；

所述模型训练模块包括参数发送模块、模型汇总与训练模块和数据更新模块：

所述参数发送模块，用于使不同参与方计算模型参数并传输到云端服务器；

所述模型汇总与训练模块，用于汇总各参与方上传的模型参数，训练并产生基准模型，利用分布式算法进行合并训练，并向参与方进行模型分发；

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据本发明公开的内容，可以采用其它多种具体实施方案实施本发明。因此，凡是采用本发明的设计结构和思路，做一些简单的变化或更改的设计，都落入本发明保护范围。

Claims

1.一种基于多方协作的工程履约保证保险风险识别方法，其特征在于，所述方法包括如下步骤：

；

S3：云端服务器设定初始的训练轮次t=1，各参与方设定模型的初始预测值为0，然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并发送给云端服务器；具体包括如下步骤：

和

确定均匀切分点

和相应的N个划分区间，m为切分点；

和

为每个维度特征k对应的最小值和步长；

S32：各个参与方j对于落在区间

的本地工程业务数据样本

，在模型初始预测值

这一点上计算该样本对应的模型损失函数

的一阶导数

和二阶导数

，

为与样本

和二阶导数求和的值

；

为样本

的第k个维度特征取值；

S33：各参与方将模型参数

传输到云端服务器；

S6：增加训练轮次t=t+1，重复步骤S4-S5直至达到最大训练轮次

并输出新的全局风险评估模型；

2.根据权利要求1所述的一种基于多方协作的工程履约保证保险风险识别方法，其特征在于，步骤S2具体包括：

与最小值

，并设定区间数N，根据如下公式计算步长

：

此处

代表四舍五入，

为值映射结果；

S23：主参与方将每个维度特征i对应的最小值

和步长

3.根据权利要求1所述的一种基于多方协作的工程履约保证保险风险识别方法，其特征在于，步骤S4具体包括：

S41：云端服务器在接收到各个参与方发送过来的模型参数

和

后，汇总计算得到所有参与方的模型参数的求和值

和

；

与右分支集合

，计算增益函数：

其中，

与

都小于0，输出一个新的树分类器

；

，并将

发送给所有参与方。

4.根据权利要求3所述的一种基于多方协作的工程履约保证保险风险识别方法，其特征在于，步骤S5具体包括：

进行预测得到第t轮的预测结果

：

S52：各个参与方j对于落在区间

的样本

，计算该样本关于

对应的模型损失函数

的一阶导数

和二阶导数

，然后按每一维度特征k求和得到

和

；

S53：各参与方将模型参数

传输到云端服务器。

5.一种基于多方协作的工程履约保证保险风险识别平台，其特征在于，所述平台包括数据输入模块、数据处理模块、模型训练模块、风险评估模块、云端服务器以及参与协作训练风险评估模型的主参与方和合作参与方；

后，得到全局风险评估模型；

所述模型训练模块包括参数发送模块、模型汇总与训练模块和数据更新模块，用于调用数据处理模块处理完成的数据，通过主参与方和合作参与方以及云端服务器对模型进行训练，并将合作参与方通过全局风险评估模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据，重新进行模型训练，直至全局风险评估模型的预测性能无法得到进一步改善，得到用于实际预测的最终的全局风险评估模型；具体为：