CN111626886B - 基于多方协作的工程履约保证保险风险识别方法与平台 - Google Patents
基于多方协作的工程履约保证保险风险识别方法与平台 Download PDFInfo
- Publication number
- CN111626886B CN111626886B CN202010750631.0A CN202010750631A CN111626886B CN 111626886 B CN111626886 B CN 111626886B CN 202010750631 A CN202010750631 A CN 202010750631A CN 111626886 B CN111626886 B CN 111626886B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- participant
- training
- engineering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 105
- 238000012502 risk assessment Methods 0.000 claims abstract description 42
- 238000013507 mapping Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000013210 evaluation model Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000013506 data mapping Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001622623 Coeliadinae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 108010021724 tonin Proteins 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于多方协作的工程履约保证保险风险识别方法与平台,该方法包括:首先,参与协作训练风险评估模型的各方对本地存储的工程项目信息数据进行预处理操作和值映射操作得到隐私保护后的工程业务数据;然后,各参与方与云端服务器通过分布式协同完成风险评估模型的训练,得到全局风险评估模型;最后,将待评估的工程项目数据处理后输入到全局风险评估模型进行风险识别预测。本发明可以在保护数据隐私的前提下进行跨数据源多方协作风险识别,在保障工程信息数据安全的同时提升风险评估模型的风险识别能力。
Description
技术领域
本发明涉及工程履约保证保险与机器学习技术领域,具体涉及一种基于多方协作的工程履约保证保险风险识别方法与平台。
背景技术
建设工程项目的施工工艺和施工流程复杂,项目参与方较多,项目周期长,涉及面广,施工单位的违约会造成多方面的损失,因此引入建设工程履约保证保险的风控机制尤为重要,能够有效帮助建筑企业释放现金保证金压力,减轻企业负担。对于保险行业而言,开展建设工程履约保证保险面临的主要难题是数据和风控,保险公司对于建设工程项目专业知识和技术的缺乏,导致对投保人、投保项目和被保险人的风险难以评估。而非融资类保证保险审批速度要求较快,无法对投保人、工程项目、被保险人进行全面审查。
造成工程违约的风险因素具有多样性、普遍性、客观性和偶然性等特性,导致履约的风险因素数量庞大且各风险因素之间具有很强的关联性。当前的工程履约保证保险多以人力判断为主,耗时长、未利用到广泛的项目数据信息,此为目前风险判别方法的不足。而本发明的风险识别方法利用到大量数据信息与智能算法模型,对投保人、工程项目、被保险人的风险因素进行整合分析,能够真正达到对建设工程违约风险进行快速识别,辅助保险公司降低承保风险。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于多方协作的工程履约保证保险风险识别方法与平台。
本发明的目的是通过以下技术方案来实现的:一种基于多方协作的工程履约保证保险风险识别方法,所述方法包括如下步骤:
S2:各参与方对本地存储的工程项目信息数据进行预处理操作和值映射操作得到隐私保护后的工程业务数据;
S3:云端服务器设定初始的训练轮次t=1,各参与方设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并发送给云端服务器;
S4:云端服务器收到模型参数后进行汇总训练,将更新后的模型发送至各参与方;
S5:各参与方基于本地的工程业务数据和更新后的模型的预测值计算相应的模型参数并将参数发送给云端服务器;
S7:主参与方的工程业务数据保持不变,而每个合作参与方利用步骤S6训练得到的全局风险评估模型对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据;
S8:重复步骤S3-S7直至全局风险评估模型的预测性能无法得到进一步改善,得到最终的全局风险评估模型;
S9:对待评估工程项目的数据进行步骤S2所述的预处理操作,然后将预处理结果输入到步骤S8得到的最终的全局风险评估模型得到最终的风险识别结果。
进一步地,步骤S2具体包括:
S21:各个参与方对于工程业务数据中以文字形式描述的类别特征进行独热编码处理得到离散数值型特征,同时,各个参与方对于工程业务数据中以数值形式描述的特征利用中位值填充方法对缺失值进行填充,完成数据预处理;
然后主参与方对于第i维特征对应的本地所有数据值data执行如下值映射操作:
进一步地,步骤S3具体包括:
S32:各个参与方j对于落在区间的本地工程业务数据样本,在模型初
始预测值这一点上计算该样本对应的模型损失函数的一阶导数和二阶导
数,为与样本对应的样本类别,然后按每一维度特征k求和得到一阶导数求和的值和二阶导数求和的值;为样本的第k
个维度特征取值;
进一步地,步骤S4具体包括:
进一步地,步骤S5具体包括:
一种基于多方协作的工程履约保证保险风险识别平台,所述平台包括数据输入模块、数据处理模块、模型训练模块、风险评估模块、云端服务器以及参与协作训练风险评估模型的主参与方和合作参与方;
所述数据输入模块,用于接受需要进行风险识别的工程业务数据,该模块包括向模型输入用于训练的工程业务数据或指定某需要风险评估的工程业务数据;
所述数据处理模块,用于对数据输入模块的工程业务数据执行处理操作,所述处理操作用于对所述数据进行预处理和值映射得到隐私保护后的工程业务数据;
所述主参与方和合作参与方,设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并通过模型训练模块发送给云端服务器;
所述云端服务器设定初始的训练轮次t=1,将收到各参与方发来的模型参数后通
过模型训练模块进行汇总训练,并将更新后的模型发送至各参与方重新计算模型参数,进
入下一轮训练,直到训练轮次为达到最大训练轮次后,得到全局风险评估模型;
所述模型训练模块,用于调用数据处理模块处理完成的数据,通过主参与方和合作参与方以及云端服务器对模型进行训练,并将合作参与方通过全局风险评估模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据,重新进行模型训练,直至全局风险评估模型的预测性能无法得到进一步改善,得到用于实际预测的最终的全局风险评估模型;
所述风险评估模块,依据模型训练模块得到的最终的全局风险评估模型,给出数据处理模块处理后的需要进行预测的工程项目数据的风险评估结果。
进一步地,所述数据输入模块包括从外界接受统一方式输入的数据,并存入数据库。
进一步地,所述数据处理模块包括文字特征离散化模块、数值特征过滤模块和数据映射模块:
所述文字特征离散化模块,用于针对工程业务数据的文字量进行独热编码处理,转化为离散数字数据;
所述数值特征过滤模块,用于针对工程业务数据的数值特征进行缺失值填充处理,获得模型可用的数据;
所述数据映射模块,以主参与方为标准,将拥有的工程业务数据映射到新的数据区间内,主参与方进行映射所需的步长和业务数据最小值向合作参与方广播,合作参与方执行相同的映射过程;具体如下:
然后主参与方对于第i维特征对应的本地所有数据值data执行如下值映射操作:
进一步地,模型训练模块包括参数发送模块、模型汇总与训练模块和数据更新模块:
所述参数发送模块,用于使不同参与方计算模型参数并传输到云端服务器;具体如下:
b,各个参与方j对于落在区间的本地工程业务数据样本,在模型初始
预测值或者第t轮的预测结果上计算该样本对应的模型损失函数或
的一阶导数和二阶导数,为与样本对应的样本类别,然后按每一维度特征k求和得
到一阶导数求和的值和二阶导数求和的值
;为样本的第k个维度特征取值;
所述模型汇总与训练模块,用于汇总各参与方上传的模型参数,训练并产生基准模型,利用分布式算法进行合并训练,并向参与方进行模型分发;具体如下:
所述数据更新模块,用于每个合作参与方利用已训练的模型,对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据。
本发明的有益效果:本发明意在解决当数据分布于不同机构,每一方拥有数据较少,造成训练困难的情景,作为主要参与方的数据拥有机构可以通过协同多方机构,在不交换真实数据的情况下,与不同机构进行协同训练,从而增加训练数据量,并训练得到一个全局风险评估模型,在保障工程信息数据安全的同时提升风险评估模型的风险识别能力。
附图说明
图1为本发明提供的基于多方协作的工程履约保证保险风险识别方法流程图;
图2为本发明提供的各参与方与云端服务器交互示意图;
图3为本发明提供的数据处理与变换过程过程示意图;
图4为本发明提供的模型参数计算过程示意图;
图5为本发明提供的汇总训练与模型更新过程示意图;
图6为本发明提供的模型参数更新计算示意图;
图7为本发明提供的基于多方协作的工程履约保证保险风险识别平台结构示意图;
图8为工程履约保证保险领域特征结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的说明,所描述的实施例旨在便于对本发明的理解,但对其不起任何限定作用。
本发明主要关注于当各个参与者的用户群体重叠较少,数据特征重叠较多的情况下,取出用户群体不同、数据特征相同的那一部分进行联合机器学习,比如两家不同的保险公司,分布在不同的区域,因此拥有的客户不同,然而由于保险公司业务的重叠,数据特征范围基本一致。为了利用尽可能多的数据训练一个科学的模型,可以将这几个公司作为参与者,进行协同训练。
本发明提出了一种基于多方协作的工程履约保证保险风险识别方法,主要流程如图1至图6所示,包括如下步骤:
为适应本发明涉及的协同训练构想,本实施例设定一种应用场景为,几个地区的
相同类型机构(公司)各自拥有相同特征维度的数据,但用户不重叠,如图8所示,为工程履
约保证保险领域特征的结构示意图。在此基础之上,通过结合不同机构数据,可以协同训练
一个更加强大的模型。本发明提出的协同训练学习在实际场景中数据是互不相交的。本实
施例中为模拟该效果,在本地使用一种分布式运算框架,设置三个计算节点,第一个节点为
主参与方节点,分到了56.3%的数据,其中80%为训练集,20%为测试集,第二个节点分到了
19.9%的数据,第三个节点分到了23.8%的数据,第二个节点和第三个节点都是合作参与方
节点,三个参与方之间数据互不相交。用于协调计算的云端服务器以第一个节点作为模拟,
参数的发送和模型的更新通过第一个节点完成。最后,预先设定模型训练轮次。
2. 各参与方对本地存储的工程项目信息数据进行预处理操作和值映射操作。
A.文字特征编码与数值特征填充
本发明所用到的算法不可对文字特征进行识别,因此需要对其进行转换,以利于模型训练。本实施例中使用独热编码,其含义为使用N位寄存器存储N种状态,每个状态都有独立的寄存器位,且寄存器中只有一位有效。例如,“施工难度”特征包含三种取值,因此可以被拓展为三个特征。原特征对应转换后的N位编码特征中,仅其中之一为状态1,其余为0,因此“简单”这一取值被转换为“施工难度_简单”、“施工难度_一般”、“施工难度_复杂”分别取1、0、0三个取值的编码。
表1 文字量特征编码示意表
施工难度 | 施工难度_简单 | 施工难度_一般 | 施工难度_复杂 |
简单 | 1 | 0 | 0 |
一般 | 0 | 1 | 0 |
复杂 | 0 | 0 | 1 |
另外,搜集的实际项目信息中有部分缺失值。考虑到数据的实际含义与算法部署的要求,对于该类缺失数据,一种填充方法是每个参与方对本地数据的缺失特征使用同一特征维度数据的中位数进行填充,避免对数据分布与实际含义造成过大的影响。
B.主参与方进行数据映射
为适应本发明的隐私保护构想,需要令数据在进行计算的时候与其真实值不同。本发明利用的增益函数来源于XGBoost算法框架,其基于回归树,仅关心同一特征内的数据顺序,因此可以采用特征映射形式,在保证数据顺序的同时隐藏数据的真实值,从而达到保护隐私的目的。
然后主参与方节点对于第i维特征对应的本地所有数据值data执行如下值映射操作:
C.合作参与方进行数据映射
在本实施例三个参与方的设定下,步骤2的子步骤B体现的值映射过程具体为:主
参与方计算每个维度特征i对应的最小值和步长并作为全局变量,供合作参与方
节点调用。合作参与方按照步骤2的子步骤B所述的过程对本地数据完成值映射操作;
3. 云端服务器设定初始的训练轮次t=1,各参与方设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并发送给云端服务器。
A.确定划分区间
B.计算模型参数
各个参与方j对于落在区间的本地工程业务数据样本,在模型初始预
测值这一点上计算该样本对应的模型损失函数的一阶导数和二阶导数。
本实施例中,设定损失函数为平方损失函数。得到导数后,然后按每一维度k求和得到一
阶导数求和的值和二阶导数求和的值;
为样本的第k个维度特征取值;
C.模型参数传输
4. 云端服务器进行汇总训练,将更新后的模型发送至各参与方。
A.云端服务器参数汇总
B.增益函数计算
其中,与为调整模型过拟合程度的超参数,I为总划分点集合,通过比较不同划
分下的,选取最大值对应的划分为最优划分。在确定最优划分后,需要进入左右分支,
并对各分支分别进行递归计算,递归停止的条件为当前分支计算的小于0,说明划分
无增益。最后,所有分支联合为一个新的树分类器;
C.模型更新与下发
5. 各参与方基于本地的工程业务数据和更新后的模型的预测值计算相应的模型参数并将参数发送给云端服务器。
A.利用新的树分类器得到预测结果
B.计算模型参数
C.模型参数传输
通过步骤5的参数更新,重复步骤4即可进行t+1轮次的训练,并在先前数据的基础
上得到新的一棵树分类器模型。该过程需要不断迭代,直到,停止训练。结束
后,将整合后的全局风险评估模型向所有合作参与方下发。
判别模型得出的样本判别拥有以下四种情况:
本发明涉及的数据为二分类数据,包含“投保”与“不投保”两个类别。因“不投保”
类数据较少,且对这一分类数据进行错误判别会对公司造成较大的损失,因此模型的比较
标准以“不投保”数据的模型判别指标为主。若定义本发明所用的“不投保”数据为阳性类,“投保”数据为阴性类,则可以计算出“不投保”数据的精确率Precision、召回率Recall、F1-Score,其含义如下:
a.精确率Precision:
被判别为阳性的数据样本中真实类别为阳性的比例,即模型针对阳性类的判别准确度;
b.召回率Recall:
真实类别为阳性的数据样本中被判别为阳性的比例;
c.F1-Score:
F1-Score是精确率与召回率的调和平均。
另外也需要比较所有样本被判别正确的比例,即总体准确率:
本发明使用的模型训练增益函数基于XGBoost算法。实施例对分类预测中常用的逻辑回归(LR)、支持向量机(SVM)同该算法进行了对比。首先将未经映射变换的数据输入XGBoost模型进行对比,“不投保”类的模型判别指标与准确率对比结果如表2所示。
表2 三种模型的“不投保”类模型指标与准确率对比
观察表2中的指标与准确率的对比,XGBoost算法具有更好的性能,可以为工程项目风险评估提供更为稳定、优秀的结果。因此本发明在模型构建上选用了XGBoost算法的增益函数。
接下来需要验证该协作学习模型与传统的集中式XGBoost模型的结果。针对变换过后的数据,分别训练协作学习模型和集中式的XGBoost模型,并以主参与方的测试数据集作为测试集,输出“不投保”类指标结果如表3所示。
表3 协同模型与集中式XGBoost模型结果对比
观察发现,两种模型的指标之间差异较小,总体准确率均较高。由于能解决数据孤岛问题,协同学习的模型有较大的使用价值。
7.主参与方的工程业务数据保持不变,而每个合作参与方利用当前训练得到的全局风险评估模型对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据。
实施例中,主参与方节点的数据分为训练与测试数据集合,该部分数据固定。而在一次数据更新过程中,合作参与方节点通过使用步骤6得到的全局风险评估模型,分别对自身的所有数据进行预测。当分类值与真实分类值不符时,将数据取出,最终重新整理为工程业务数据,以备使用。主参与方在使用自身数据的基础上,可以只利用合作参与方的少量错误分类数据,进行步骤3-6的协同训练。该过程减少了数据传输,同时针对上一轮模型的分类错误进行训练,因此能够有更好的效果。
8. 重复步骤3-7直至全局风险评估模型的预测性能无法得到进一步改善。
在新一轮训练中,因为数据文件的更新,合作参与方节点仅对被挑选过的错误数
据进行与的计算,并传输到协调者之中。此时,主参与方节点对训练数据通过步骤3
的计算,得到相应的梯度值,并通过步骤4在中心计算节点被汇总,通过训练得出一个新的
模型,并利用测试数据进行测试,得到新的模型指标。
本实施例中,经过6次步骤3-7的循环,得到测试数据集的“不投保”类最终判别指标与总体准确率结果如表4所示。
表4 优化前后结果对比
<i>Precision</i> | <i>Recall</i> | <i>F1-score</i> | <i>Accuracy</i> | |
原始模型 | 0.44 | 0.22 | 0.30 | 0.89 |
优化后模型 | 0.50 | 0.39 | 0.44 | 0.89 |
不难看出,通过针对挑选错误数据进行训练的迭代优化,最终模型得到了比初始模型更优秀的结果。需要注意,步骤3-7的重复过程不可过多,否则会导致模型的过拟合。
9.对待评估工程项目的数据进行步骤2所述的数据预处理操作,然后将预处理结果输入到步骤8得到的全局风险评估模型得到最终的风险识别结果。
本实施例以主参与方为例,对于新输入的工程项目数据,主参与方作为给出评估的主体,使用本地的数据作为协助,利用步骤2中同样的预处理与值映射操作,将预处理的工程业务数据输入步骤8结束迭代后确定的最终全局风险评估模型,即可得到风险识别结果。
如图7所示,本发明还提出一种基于多方协作的工程履约保证保险风险识别平台,基于上述实施例,所述平台包括数据输入模块、数据处理模块、模型训练模块、风险评估模块、云端服务器以及参与协作训练风险评估模型的主参与方和合作参与方;
所述数据输入模块,用于接受需要进行风险识别的工程业务数据,该模块包括向模型输入用于训练的工程业务数据或指定某需要风险评估的工程业务数据;
所述数据处理模块,用于对数据输入模块的工程业务数据执行处理操作,所述处理操作用于对所述数据进行预处理和值映射得到隐私保护后的工程业务数据;
所述主参与方和合作参与方,设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并通过模型训练模块发送给云端服务器;
所述云端服务器设定初始的训练轮次t=1,将收到各参与方发来的模型参数后通
过模型训练模块进行汇总训练,并将更新后的模型发送至各参与方重新计算模型参数,进
入下一轮训练,直到训练轮次为达到最大训练轮次后,得到全局风险评估模型;
所述模型训练模块,用于调用数据处理模块处理完成的数据,通过主参与方和合作参与方以及云端服务器对模型进行训练,并将合作参与方通过全局风险评估模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据,重新进行模型训练,直至全局风险评估模型的预测性能无法得到进一步改善,得到用于实际预测的最终的全局风险评估模型;
所述风险评估模块,依据模型训练模块得到的最终的全局风险评估模型,给出数据处理模块处理后的需要进行预测的工程项目数据的风险评估结果。
进一步地,所述数据输入模块包括从外界接受统一方式输入的数据,并存入数据库。
进一步地,所述数据处理模块包括文字特征离散化模块、数值特征过滤模块和数据映射模块:
所述文字特征离散化模块,用于针对所述工程业务数据的文字量进行独热编码处理,转化为离散数字数据;
所述数值特征过滤模块,用于针对所述工程业务数据的数值特征进行缺失值填充处理,获得模型可用的数据;
所述数据映射模块,以主参与方为标准,将拥有的工程业务数据映射到新的数据区间内,主参与方进行映射所需的步长和业务数据最小值向合作参与方广播,合作参与方执行相同的映射过程;
所述模型训练模块包括参数发送模块、模型汇总与训练模块和数据更新模块:
所述参数发送模块,用于使不同参与方计算模型参数并传输到云端服务器;
所述模型汇总与训练模块,用于汇总各参与方上传的模型参数,训练并产生基准模型,利用分布式算法进行合并训练,并向参与方进行模型分发;
所述数据更新模块,用于每个合作参与方利用已训练的模型,对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据。
本发明不仅局限于上述具体实施方式,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方案实施本发明。因此,凡是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落入本发明保护范围。
Claims (7)
1.一种基于多方协作的工程履约保证保险风险识别方法,其特征在于,所述方法包括如下步骤:
S2:各参与方对本地存储的工程项目信息数据进行预处理操作和值映射操作得到隐私保护后的工程业务数据;
S3:云端服务器设定初始的训练轮次t=1,各参与方设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并发送给云端服务器;具体包括如下步骤:
S32:各个参与方j对于落在区间的本地工程业务数据样本,在模型初始预测值这一点上计算该样本对应的模型损失函数的一阶导数和二阶导数,为与样本对应的样本类别,然后按每一维度特征k求和得到一阶导数求和的值和二阶导数求和的值;为样本的第k个维度特征取值;
S4:云端服务器收到模型参数后进行汇总训练,将更新后的模型发送至各参与方;
S5:各参与方基于本地的工程业务数据和更新后的模型的预测值计算相应的模型参数并将参数发送给云端服务器;
S7:主参与方的工程业务数据保持不变,而每个合作参与方利用步骤S6训练得到的全局风险评估模型对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据;
S8:重复步骤S3-S7直至全局风险评估模型的预测性能无法得到进一步改善,得到最终的全局风险评估模型;
S9:对待评估工程项目的数据进行步骤S2所述的预处理操作,然后将预处理结果输入到步骤S8得到的最终的全局风险评估模型得到最终的风险识别结果。
2.根据权利要求1所述的一种基于多方协作的工程履约保证保险风险识别方法,其特征在于,步骤S2具体包括:
S21:各个参与方对于工程业务数据中以文字形式描述的类别特征进行独热编码处理得到离散数值型特征,同时,各个参与方对于工程业务数据中以数值形式描述的特征利用中位值填充方法对缺失值进行填充,完成数据预处理;
然后主参与方对于第i维特征对应的本地所有数据值data执行如下值映射操作:
5.一种基于多方协作的工程履约保证保险风险识别平台,其特征在于,所述平台包括数据输入模块、数据处理模块、模型训练模块、风险评估模块、云端服务器以及参与协作训练风险评估模型的主参与方和合作参与方;
所述数据输入模块,用于接受需要进行风险识别的工程业务数据,该模块包括向模型输入用于训练的工程业务数据或指定某需要风险评估的工程业务数据;
所述数据处理模块,用于对数据输入模块的工程业务数据执行处理操作,所述处理操作用于对所述数据进行预处理和值映射得到隐私保护后的工程业务数据;
所述主参与方和合作参与方,设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并通过模型训练模块发送给云端服务器;
所述云端服务器设定初始的训练轮次t=1,将收到各参与方发来的模型参数后通过模型训练模块进行汇总训练,并将更新后的模型发送至各参与方重新计算模型参数,进入下一轮训练,直到训练轮次为达到最大训练轮次后,得到全局风险评估模型;
所述模型训练模块包括参数发送模块、模型汇总与训练模块和数据更新模块,用于调用数据处理模块处理完成的数据,通过主参与方和合作参与方以及云端服务器对模型进行训练,并将合作参与方通过全局风险评估模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据,重新进行模型训练,直至全局风险评估模型的预测性能无法得到进一步改善,得到用于实际预测的最终的全局风险评估模型;具体为:
所述参数发送模块,用于使不同参与方计算模型参数并传输到云端服务器;具体如下:
b,各个参与方j对于落在区间的本地工程业务数据样本,在模型初始预测值或者第t轮的预测结果上计算该样本对应的模型损失函数或的一阶导数和二阶导数,为与样本对应的样本类别,然后按每一维度特征k求和得到一阶导数求和的值和二阶导数求和的值;为样本的第k个维度特征取值;
所述模型汇总与训练模块,用于汇总各参与方上传的模型参数,训练并产生基准模型,利用分布式算法进行合并训练,并向参与方进行模型分发;具体如下:
所述数据更新模块,用于每个合作参与方利用已训练的模型,对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据;
所述风险评估模块,依据模型训练模块得到的最终的全局风险评估模型,给出数据处理模块处理后的需要进行预测的工程项目数据的风险评估结果。
6.根据权利要求5所述的一种基于多方协作的工程履约保证保险风险识别平台,其特征在于,所述数据输入模块包括从外界接受统一方式输入的数据,并存入数据库。
7.根据权利要求5所述的一种基于多方协作的工程履约保证保险风险识别平台,其特征在于,所述数据处理模块包括文字特征离散化模块、数值特征过滤模块和数据映射模块:
所述文字特征离散化模块,用于针对工程业务数据的文字量进行独热编码处理,转化为离散数字数据;
所述数值特征过滤模块,用于针对工程业务数据的数值特征进行缺失值填充处理,获得模型可用的数据;
所述数据映射模块,以主参与方为标准,将拥有的工程业务数据映射到新的数据区间内,主参与方进行映射所需的步长和业务数据最小值向合作参与方广播,合作参与方执行相同的映射过程;具体如下:
然后主参与方对于第i维特征对应的本地所有数据值data执行如下值映射操作:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010750631.0A CN111626886B (zh) | 2020-07-30 | 2020-07-30 | 基于多方协作的工程履约保证保险风险识别方法与平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010750631.0A CN111626886B (zh) | 2020-07-30 | 2020-07-30 | 基于多方协作的工程履约保证保险风险识别方法与平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626886A CN111626886A (zh) | 2020-09-04 |
CN111626886B true CN111626886B (zh) | 2020-10-30 |
Family
ID=72272241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010750631.0A Active CN111626886B (zh) | 2020-07-30 | 2020-07-30 | 基于多方协作的工程履约保证保险风险识别方法与平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626886B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700031B (zh) * | 2020-12-12 | 2023-03-31 | 同济大学 | 一种保护多方数据隐私的XGBoost预测模型训练方法 |
CN112464287B (zh) * | 2020-12-12 | 2022-07-05 | 同济大学 | 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844901A (zh) * | 2017-11-01 | 2018-03-27 | 前海梧桐(深圳)数据有限公司 | 一种企业运营自动化分析的方法及其系统 |
CN111081337A (zh) * | 2020-03-23 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种协同任务预测方法及计算机可读存储介质 |
US10679128B2 (en) * | 2017-02-03 | 2020-06-09 | Milestone Entertainment, LLC | Architectures, systems and methods for program defined transaction system and decentralized cryptocurrency system |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550927A (zh) * | 2015-11-30 | 2016-05-04 | 吉林大学 | 一种银行信贷系统风险评估方法及装置 |
CN111027715B (zh) * | 2019-12-11 | 2021-04-02 | 支付宝(杭州)信息技术有限公司 | 基于蒙特卡洛的联邦学习模型训练方法及装置 |
CN111461874A (zh) * | 2020-04-13 | 2020-07-28 | 浙江大学 | 一种基于联邦模式的信贷风险控制系统及方法 |
-
2020
- 2020-07-30 CN CN202010750631.0A patent/CN111626886B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10679128B2 (en) * | 2017-02-03 | 2020-06-09 | Milestone Entertainment, LLC | Architectures, systems and methods for program defined transaction system and decentralized cryptocurrency system |
CN107844901A (zh) * | 2017-11-01 | 2018-03-27 | 前海梧桐(深圳)数据有限公司 | 一种企业运营自动化分析的方法及其系统 |
CN111081337A (zh) * | 2020-03-23 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种协同任务预测方法及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
协同项目风险管理智能决策支持系统;张宏国 等;《微计算机信息》;20100125;第26卷(第1-3期);第23页左栏第1段-第24页右栏第8段,摘要 * |
Also Published As
Publication number | Publication date |
---|---|
CN111626886A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Toloo et al. | A non-radial directional distance method on classifying inputs and outputs in DEA: Application to banking industry | |
Emrouznejad et al. | Fuzzy assessment of performance of a decision making units using DEA: A non-radial approach | |
CN111626886B (zh) | 基于多方协作的工程履约保证保险风险识别方法与平台 | |
CN111080338B (zh) | 用户数据的处理方法、装置、电子设备及存储介质 | |
CN109767312B (zh) | 一种信用评估模型训练、评估方法与装置 | |
CN108898476A (zh) | 一种贷款客户信用评分方法和装置 | |
CN112819604A (zh) | 基于融合神经网络特征挖掘的个人信用评估方法与系统 | |
CN107770783B (zh) | 一种基站扩容改造方案设计方法及相关设备 | |
CN109740160B (zh) | 一种基于人工智能语义分析的任务发布方法 | |
CN111723948A (zh) | 基于演化计算的联邦学习方法、装置、设备及介质 | |
CN111738870B (zh) | 基于特征工程的工程履约保证保险风险识别方法与平台 | |
CN116612595A (zh) | 一种基于联邦学习的森林火灾预测方法及系统 | |
CN111192158A (zh) | 一种基于深度学习的变电站日负荷曲线相似度匹配方法 | |
Faizi et al. | A Multicriteria Decision‐Making Approach Based on Fuzzy AHP with Intuitionistic 2‐Tuple Linguistic Sets | |
Kumar et al. | Automation of software cost estimation using neural network technique | |
US20230252387A1 (en) | Apparatus, method and recording medium storing commands for providing artificial-intelligence-based risk management solution in credit exposure business of financial institution | |
Zhang et al. | Edge-based formulation with graph attention network for practical vehicle routing problem with time windows | |
CN116049678A (zh) | 特征贡献度评估方法、装置、电子设备和存储介质 | |
Gloudemans FIAAO et al. | The potential of artificial intelligence in property assessment | |
CN115409541A (zh) | 基于数据血缘的卷烟品牌数据处理方法 | |
Zou et al. | An improved grey Markov chain model with ANN error correction and its application in gross domestic product forecasting | |
Nishitha et al. | Stock price prognosticator using machine learning techniques | |
CN114240318A (zh) | 面向目标对象的信息处理方法、装置、计算机设备 | |
Le et al. | A method for project completion cost predicting using lstm in earned value management technique | |
CN113158088A (zh) | 一种基于图神经网络的位置推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |