CN111626886B - 基于多方协作的工程履约保证保险风险识别方法与平台 - Google Patents

基于多方协作的工程履约保证保险风险识别方法与平台 Download PDF

Info

Publication number
CN111626886B
CN111626886B CN202010750631.0A CN202010750631A CN111626886B CN 111626886 B CN111626886 B CN 111626886B CN 202010750631 A CN202010750631 A CN 202010750631A CN 111626886 B CN111626886 B CN 111626886B
Authority
CN
China
Prior art keywords
model
data
participant
training
engineering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010750631.0A
Other languages
English (en)
Other versions
CN111626886A (zh
Inventor
谢仑辰
徐学武
曾雪强
史清江
陈海军
化允
陈华龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gongbao Technology Zhejiang Co ltd
Original Assignee
Gongbao Technology Zhejiang Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gongbao Technology Zhejiang Co ltd filed Critical Gongbao Technology Zhejiang Co ltd
Priority to CN202010750631.0A priority Critical patent/CN111626886B/zh
Publication of CN111626886A publication Critical patent/CN111626886A/zh
Application granted granted Critical
Publication of CN111626886B publication Critical patent/CN111626886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于多方协作的工程履约保证保险风险识别方法与平台,该方法包括:首先,参与协作训练风险评估模型的各方对本地存储的工程项目信息数据进行预处理操作和值映射操作得到隐私保护后的工程业务数据;然后,各参与方与云端服务器通过分布式协同完成风险评估模型的训练,得到全局风险评估模型;最后,将待评估的工程项目数据处理后输入到全局风险评估模型进行风险识别预测。本发明可以在保护数据隐私的前提下进行跨数据源多方协作风险识别,在保障工程信息数据安全的同时提升风险评估模型的风险识别能力。

Description

基于多方协作的工程履约保证保险风险识别方法与平台
技术领域
本发明涉及工程履约保证保险与机器学习技术领域,具体涉及一种基于多方协作的工程履约保证保险风险识别方法与平台。
背景技术
建设工程项目的施工工艺和施工流程复杂,项目参与方较多,项目周期长,涉及面广,施工单位的违约会造成多方面的损失,因此引入建设工程履约保证保险的风控机制尤为重要,能够有效帮助建筑企业释放现金保证金压力,减轻企业负担。对于保险行业而言,开展建设工程履约保证保险面临的主要难题是数据和风控,保险公司对于建设工程项目专业知识和技术的缺乏,导致对投保人、投保项目和被保险人的风险难以评估。而非融资类保证保险审批速度要求较快,无法对投保人、工程项目、被保险人进行全面审查。
造成工程违约的风险因素具有多样性、普遍性、客观性和偶然性等特性,导致履约的风险因素数量庞大且各风险因素之间具有很强的关联性。当前的工程履约保证保险多以人力判断为主,耗时长、未利用到广泛的项目数据信息,此为目前风险判别方法的不足。而本发明的风险识别方法利用到大量数据信息与智能算法模型,对投保人、工程项目、被保险人的风险因素进行整合分析,能够真正达到对建设工程违约风险进行快速识别,辅助保险公司降低承保风险。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于多方协作的工程履约保证保险风险识别方法与平台。
本发明的目的是通过以下技术方案来实现的:一种基于多方协作的工程履约保证保险风险识别方法,所述方法包括如下步骤:
S1:将参与协作训练风险评估模型的参与方分成主参与方和合作参与方,云端服 务器设定最大训练轮次为
Figure 571835DEST_PATH_IMAGE001
S2:各参与方对本地存储的工程项目信息数据进行预处理操作和值映射操作得到隐私保护后的工程业务数据;
S3:云端服务器设定初始的训练轮次t=1,各参与方设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并发送给云端服务器;
S4:云端服务器收到模型参数后进行汇总训练,将更新后的模型发送至各参与方;
S5:各参与方基于本地的工程业务数据和更新后的模型的预测值计算相应的模型参数并将参数发送给云端服务器;
S6:增加训练轮次t=t+1,重复步骤S4-S5直至达到最大训练轮次
Figure 20134DEST_PATH_IMAGE001
并输出新的 全局风险评估模型;
S7:主参与方的工程业务数据保持不变,而每个合作参与方利用步骤S6训练得到的全局风险评估模型对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据;
S8:重复步骤S3-S7直至全局风险评估模型的预测性能无法得到进一步改善,得到最终的全局风险评估模型;
S9:对待评估工程项目的数据进行步骤S2所述的预处理操作,然后将预处理结果输入到步骤S8得到的最终的全局风险评估模型得到最终的风险识别结果。
进一步地,步骤S2具体包括:
S21:各个参与方对于工程业务数据中以文字形式描述的类别特征进行独热编码处理得到离散数值型特征,同时,各个参与方对于工程业务数据中以数值形式描述的特征利用中位值填充方法对缺失值进行填充,完成数据预处理;
S22:主参与方对预处理后的本地工程业务数据中每个维度特征i,计算其最大值
Figure 331029DEST_PATH_IMAGE002
与最小值
Figure 257397DEST_PATH_IMAGE003
,并设定区间数N,根据如下公式计算步长
Figure 353660DEST_PATH_IMAGE004
Figure 707281DEST_PATH_IMAGE005
然后主参与方对于第i维特征对应的本地所有数据值data执行如下值映射操作:
Figure 505473DEST_PATH_IMAGE006
此处
Figure 235531DEST_PATH_IMAGE007
代表四舍五入,
Figure 684836DEST_PATH_IMAGE008
为值映射结果;
S23:主参与方将每个维度特征i对应的最小值
Figure 943779DEST_PATH_IMAGE003
和步长
Figure 229267DEST_PATH_IMAGE004
发送给合作参与 方,合作参与方按照S22的过程对本地工程业务数据完成值映射操作。
进一步地,步骤S3具体包括:
S31:各个参与方对于本地工程业务数据的每一维度特征k,根据获得的
Figure 497437DEST_PATH_IMAGE009
Figure 302713DEST_PATH_IMAGE010
确定均匀切分点
Figure 998137DEST_PATH_IMAGE011
和相应的N个划分区间,m为切分点;
S32:各个参与方j对于落在区间
Figure 770921DEST_PATH_IMAGE012
的本地工程业务数据样本
Figure 577203DEST_PATH_IMAGE013
,在模型初 始预测值
Figure 751832DEST_PATH_IMAGE014
这一点上计算该样本对应的模型损失函数
Figure 873284DEST_PATH_IMAGE015
的一阶导数
Figure 133364DEST_PATH_IMAGE016
和二阶导 数
Figure 743337DEST_PATH_IMAGE017
Figure 506894DEST_PATH_IMAGE018
为与样本
Figure 560431DEST_PATH_IMAGE013
对应的样本类别,然后按每一维度特征k求和得到一阶导数求和的值
Figure 42228DEST_PATH_IMAGE019
和二阶导数求和的值
Figure 190313DEST_PATH_IMAGE020
Figure 73955DEST_PATH_IMAGE021
为样本
Figure 547662DEST_PATH_IMAGE013
的第k 个维度特征取值;
S33:各参与方将模型参数
Figure 500443DEST_PATH_IMAGE022
传输到云端服务器。
进一步地,步骤S4具体包括:
S41:云端服务器在接收到各个参与方发送过来的模型参数
Figure 452219DEST_PATH_IMAGE023
Figure 455947DEST_PATH_IMAGE024
后,汇总计算 得到所有参与方的模型参数的求和值
Figure 100555DEST_PATH_IMAGE025
Figure 291365DEST_PATH_IMAGE026
S42:在当前训练轮次t,遍历所有维度特征k的所有划分点,根据划分点得到左分 支集合
Figure 797564DEST_PATH_IMAGE027
与右分支集合
Figure 390219DEST_PATH_IMAGE028
,计算增益函数:
Figure 940149DEST_PATH_IMAGE029
其中,
Figure 883834DEST_PATH_IMAGE030
Figure 692259DEST_PATH_IMAGE031
为调整模型过拟合程度的超参数,I为总划分点集合,通过比较不同划 分下的
Figure 405000DEST_PATH_IMAGE032
,选取最大值对应的划分为最优划分,进入左右分支并进行递归计算直至
Figure 860252DEST_PATH_IMAGE032
都小于0,输出一个新的树分类器
Figure 291234DEST_PATH_IMAGE033
S43:合并当前获得的所有树分类器得到新的树组合分类器模型
Figure 122923DEST_PATH_IMAGE034
,并将
Figure 706483DEST_PATH_IMAGE035
发送给所有参与方。
进一步地,步骤S5具体包括:
S51:各个参与方在收到云端服务器发送过来的树组合分类器模型后,对本地工程 业务数据样本
Figure 598215DEST_PATH_IMAGE036
进行预测得到第t轮的预测结果
Figure 516493DEST_PATH_IMAGE037
Figure 151873DEST_PATH_IMAGE038
S52:各个参与方j对于落在区间
Figure 573627DEST_PATH_IMAGE039
的样本
Figure 151108DEST_PATH_IMAGE036
,计算该样本关于
Figure 25523DEST_PATH_IMAGE037
对应的模 型损失函数
Figure 730174DEST_PATH_IMAGE040
的一阶导数
Figure 272014DEST_PATH_IMAGE041
和二阶导数
Figure 521861DEST_PATH_IMAGE042
,然后按每一维度特征k求和得到
Figure 883572DEST_PATH_IMAGE043
Figure 126334DEST_PATH_IMAGE044
S53:各参与方将模型参数
Figure 522681DEST_PATH_IMAGE045
传输到云端服务器。
一种基于多方协作的工程履约保证保险风险识别平台,所述平台包括数据输入模块、数据处理模块、模型训练模块、风险评估模块、云端服务器以及参与协作训练风险评估模型的主参与方和合作参与方;
所述数据输入模块,用于接受需要进行风险识别的工程业务数据,该模块包括向模型输入用于训练的工程业务数据或指定某需要风险评估的工程业务数据;
所述数据处理模块,用于对数据输入模块的工程业务数据执行处理操作,所述处理操作用于对所述数据进行预处理和值映射得到隐私保护后的工程业务数据;
所述主参与方和合作参与方,设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并通过模型训练模块发送给云端服务器;
所述云端服务器设定初始的训练轮次t=1,将收到各参与方发来的模型参数后通 过模型训练模块进行汇总训练,并将更新后的模型发送至各参与方重新计算模型参数,进 入下一轮训练,直到训练轮次为达到最大训练轮次
Figure 927117DEST_PATH_IMAGE001
后,得到全局风险评估模型;
所述模型训练模块,用于调用数据处理模块处理完成的数据,通过主参与方和合作参与方以及云端服务器对模型进行训练,并将合作参与方通过全局风险评估模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据,重新进行模型训练,直至全局风险评估模型的预测性能无法得到进一步改善,得到用于实际预测的最终的全局风险评估模型;
所述风险评估模块,依据模型训练模块得到的最终的全局风险评估模型,给出数据处理模块处理后的需要进行预测的工程项目数据的风险评估结果。
进一步地,所述数据输入模块包括从外界接受统一方式输入的数据,并存入数据库。
进一步地,所述数据处理模块包括文字特征离散化模块、数值特征过滤模块和数据映射模块:
所述文字特征离散化模块,用于针对工程业务数据的文字量进行独热编码处理,转化为离散数字数据;
所述数值特征过滤模块,用于针对工程业务数据的数值特征进行缺失值填充处理,获得模型可用的数据;
所述数据映射模块,以主参与方为标准,将拥有的工程业务数据映射到新的数据区间内,主参与方进行映射所需的步长和业务数据最小值向合作参与方广播,合作参与方执行相同的映射过程;具体如下:
主参与方对预处理后的本地工程业务数据中每个维度特征i,计算其最大值
Figure 285112DEST_PATH_IMAGE046
与最小值
Figure 65986DEST_PATH_IMAGE003
,并设定区间数N,根据如下公式计算步长
Figure 582418DEST_PATH_IMAGE004
Figure 423335DEST_PATH_IMAGE047
然后主参与方对于第i维特征对应的本地所有数据值data执行如下值映射操作:
Figure 775950DEST_PATH_IMAGE006
此处
Figure 94936DEST_PATH_IMAGE007
代表四舍五入,
Figure 465875DEST_PATH_IMAGE008
为值映射结果;
主参与方将每个维度特征i对应的最小值
Figure 477693DEST_PATH_IMAGE003
和步长
Figure 301292DEST_PATH_IMAGE004
发送给合作参与方,合 作参与方按照与主参与方相同的操作对本地工程业务数据完成值映射操作。
进一步地,模型训练模块包括参数发送模块、模型汇总与训练模块和数据更新模块:
所述参数发送模块,用于使不同参与方计算模型参数并传输到云端服务器;具体如下:
a,各个参与方对于本地工程业务数据的每一维度特征k,根据获得的
Figure 673237DEST_PATH_IMAGE009
Figure 898682DEST_PATH_IMAGE010
确定均匀切分点
Figure 81401DEST_PATH_IMAGE011
和相应的N个划分区间,m为切分点;
b,各个参与方j对于落在区间
Figure 657876DEST_PATH_IMAGE012
的本地工程业务数据样本
Figure 318665DEST_PATH_IMAGE013
,在模型初始 预测值
Figure 149349DEST_PATH_IMAGE014
或者第t轮的预测结果
Figure 768549DEST_PATH_IMAGE048
上计算该样本对应的模型损失函数
Figure 301161DEST_PATH_IMAGE049
Figure 31220DEST_PATH_IMAGE050
的一阶导数
Figure 214945DEST_PATH_IMAGE016
和二阶导数
Figure 739468DEST_PATH_IMAGE017
Figure 24956DEST_PATH_IMAGE018
为与样本
Figure 293126DEST_PATH_IMAGE013
对应的样本类别,然后按每一维度特征k求和得 到一阶导数求和的值
Figure 82090DEST_PATH_IMAGE019
和二阶导数求和的值
Figure 793826DEST_PATH_IMAGE020
Figure 301030DEST_PATH_IMAGE021
为样本
Figure 372891DEST_PATH_IMAGE013
的第k个维度特征取值;
c,各参与方将模型参数
Figure 281942DEST_PATH_IMAGE022
传输到云端服务器;
所述模型汇总与训练模块,用于汇总各参与方上传的模型参数,训练并产生基准模型,利用分布式算法进行合并训练,并向参与方进行模型分发;具体如下:
a,云端服务器在接收到各个参与方发送过来的模型参数
Figure 148266DEST_PATH_IMAGE023
Figure 392035DEST_PATH_IMAGE024
后,通过模型汇 总与训练模块汇总计算得到所有参与方的模型参数的求和值
Figure 2008DEST_PATH_IMAGE051
Figure 31144DEST_PATH_IMAGE026
b,在当前训练轮次t,遍历所有维度特征k的所有划分点,根据划分点得到左分支 集合
Figure 802791DEST_PATH_IMAGE052
与右分支集合
Figure 550167DEST_PATH_IMAGE028
,计算增益函数:
Figure 714563DEST_PATH_IMAGE029
其中,
Figure 598205DEST_PATH_IMAGE030
Figure 806333DEST_PATH_IMAGE031
为调整模型过拟合程度的超参数,I为总划分点集合,通过比较不同划 分下的
Figure 775426DEST_PATH_IMAGE032
,选取最大值对应的划分为最优划分,进入左右分支并进行递归计算直至
Figure 461622DEST_PATH_IMAGE032
都小于0,输出一个新的树分类器
Figure 986056DEST_PATH_IMAGE053
c,合并当前获得的所有树分类器得到新的树组合分类器模型
Figure 365085DEST_PATH_IMAGE054
, 并将
Figure 821474DEST_PATH_IMAGE055
发送给所有参与方;各个参与方在收到云端服务器发送过来的树组合分类器模 型后,对本地工程业务数据样本
Figure 327673DEST_PATH_IMAGE056
进行预测得到第t轮的预测结果
Figure 920328DEST_PATH_IMAGE037
Figure 735838DEST_PATH_IMAGE038
所述数据更新模块,用于每个合作参与方利用已训练的模型,对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据。
本发明的有益效果:本发明意在解决当数据分布于不同机构,每一方拥有数据较少,造成训练困难的情景,作为主要参与方的数据拥有机构可以通过协同多方机构,在不交换真实数据的情况下,与不同机构进行协同训练,从而增加训练数据量,并训练得到一个全局风险评估模型,在保障工程信息数据安全的同时提升风险评估模型的风险识别能力。
附图说明
图1为本发明提供的基于多方协作的工程履约保证保险风险识别方法流程图;
图2为本发明提供的各参与方与云端服务器交互示意图;
图3为本发明提供的数据处理与变换过程过程示意图;
图4为本发明提供的模型参数计算过程示意图;
图5为本发明提供的汇总训练与模型更新过程示意图;
图6为本发明提供的模型参数更新计算示意图;
图7为本发明提供的基于多方协作的工程履约保证保险风险识别平台结构示意图;
图8为工程履约保证保险领域特征结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的说明,所描述的实施例旨在便于对本发明的理解,但对其不起任何限定作用。
本发明主要关注于当各个参与者的用户群体重叠较少,数据特征重叠较多的情况下,取出用户群体不同、数据特征相同的那一部分进行联合机器学习,比如两家不同的保险公司,分布在不同的区域,因此拥有的客户不同,然而由于保险公司业务的重叠,数据特征范围基本一致。为了利用尽可能多的数据训练一个科学的模型,可以将这几个公司作为参与者,进行协同训练。
本发明提出了一种基于多方协作的工程履约保证保险风险识别方法,主要流程如图1至图6所示,包括如下步骤:
1. 将参与协作训练风险评估模型的参与方分成主参与方和合作参与方,云端服 务器设定最大训练轮次为
Figure 679523DEST_PATH_IMAGE001
为适应本发明涉及的协同训练构想,本实施例设定一种应用场景为,几个地区的 相同类型机构(公司)各自拥有相同特征维度的数据,但用户不重叠,如图8所示,为工程履 约保证保险领域特征的结构示意图。在此基础之上,通过结合不同机构数据,可以协同训练 一个更加强大的模型。本发明提出的协同训练学习在实际场景中数据是互不相交的。本实 施例中为模拟该效果,在本地使用一种分布式运算框架,设置三个计算节点,第一个节点为 主参与方节点,分到了56.3%的数据,其中80%为训练集,20%为测试集,第二个节点分到了 19.9%的数据,第三个节点分到了23.8%的数据,第二个节点和第三个节点都是合作参与方 节点,三个参与方之间数据互不相交。用于协调计算的云端服务器以第一个节点作为模拟, 参数的发送和模型的更新通过第一个节点完成。最后,预先设定模型训练轮次
Figure 973101DEST_PATH_IMAGE001
2. 各参与方对本地存储的工程项目信息数据进行预处理操作和值映射操作。
A.文字特征编码与数值特征填充
本发明所用到的算法不可对文字特征进行识别,因此需要对其进行转换,以利于模型训练。本实施例中使用独热编码,其含义为使用N位寄存器存储N种状态,每个状态都有独立的寄存器位,且寄存器中只有一位有效。例如,“施工难度”特征包含三种取值,因此可以被拓展为三个特征。原特征对应转换后的N位编码特征中,仅其中之一为状态1,其余为0,因此“简单”这一取值被转换为“施工难度_简单”、“施工难度_一般”、“施工难度_复杂”分别取1、0、0三个取值的编码。
表1 文字量特征编码示意表
施工难度 施工难度_简单 施工难度_一般 施工难度_复杂
简单 1 0 0
一般 0 1 0
复杂 0 0 1
另外,搜集的实际项目信息中有部分缺失值。考虑到数据的实际含义与算法部署的要求,对于该类缺失数据,一种填充方法是每个参与方对本地数据的缺失特征使用同一特征维度数据的中位数进行填充,避免对数据分布与实际含义造成过大的影响。
B.主参与方进行数据映射
为适应本发明的隐私保护构想,需要令数据在进行计算的时候与其真实值不同。本发明利用的增益函数来源于XGBoost算法框架,其基于回归树,仅关心同一特征内的数据顺序,因此可以采用特征映射形式,在保证数据顺序的同时隐藏数据的真实值,从而达到保护隐私的目的。
在本实施例中,主参与方节点对预处理后的本地数据中每个维度特征i,计算其最 大值
Figure 669530DEST_PATH_IMAGE002
与最小值
Figure 655941DEST_PATH_IMAGE003
。本例设定区间数N=400,根据如下公式计算步长
Figure 86922DEST_PATH_IMAGE004
Figure 918612DEST_PATH_IMAGE005
然后主参与方节点对于第i维特征对应的本地所有数据值data执行如下值映射操作:
Figure 485860DEST_PATH_IMAGE006
此处
Figure 393904DEST_PATH_IMAGE007
代表四舍五入,
Figure 312181DEST_PATH_IMAGE008
为值映射结果。
C.合作参与方进行数据映射
在本实施例三个参与方的设定下,步骤2的子步骤B体现的值映射过程具体为:主 参与方计算每个维度特征i对应的最小值
Figure 947562DEST_PATH_IMAGE003
和步长
Figure 369316DEST_PATH_IMAGE004
并作为全局变量,供合作参与方 节点调用。合作参与方按照步骤2的子步骤B所述的过程对本地数据完成值映射操作;
3. 云端服务器设定初始的训练轮次t=1,各参与方设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并发送给云端服务器。
A.确定划分区间
在实际计算中,各个参与方对于本地工程业务数据的每一维度特征k,需要根据获 得的
Figure 946797DEST_PATH_IMAGE009
Figure 86791DEST_PATH_IMAGE010
确定均匀切分点
Figure 791442DEST_PATH_IMAGE011
和相应的N个划分区间,m为 切分点。实施例中确定数据被映射到N=400个区间内,切分点的取值为
Figure 67702DEST_PATH_IMAGE057
B.计算模型参数
各个参与方j对于落在区间
Figure 566817DEST_PATH_IMAGE012
的本地工程业务数据样本
Figure 944840DEST_PATH_IMAGE013
,在模型初始预 测值
Figure 656444DEST_PATH_IMAGE014
这一点上计算该样本对应的模型损失函数
Figure 318369DEST_PATH_IMAGE015
的一阶导数
Figure 988385DEST_PATH_IMAGE016
和二阶导数
Figure 837392DEST_PATH_IMAGE017
。 本实施例中,设定损失函数
Figure 867534DEST_PATH_IMAGE058
为平方损失函数。得到导数后,然后按每一维度k求和得到一 阶导数求和的值
Figure 383966DEST_PATH_IMAGE019
和二阶导数求和的值
Figure 959304DEST_PATH_IMAGE020
Figure 561187DEST_PATH_IMAGE021
为样本
Figure 896484DEST_PATH_IMAGE013
的第k个维度特征取值;
C.模型参数传输
各参与方节点将自身数据计算出的区间求和导数作为模型参数
Figure 267423DEST_PATH_IMAGE022
传输到 模拟云端服务器的主参与方节点。
4. 云端服务器进行汇总训练,将更新后的模型发送至各参与方。
A.云端服务器参数汇总
主参与方节点作为模拟的云端服务器,在接收到各个参与方 j发送过来的模型参 数
Figure 13662DEST_PATH_IMAGE023
Figure 837261DEST_PATH_IMAGE024
后,汇总计算,按照每一特征k的划分区间进行求和,得到
Figure 225517DEST_PATH_IMAGE059
Figure 717808DEST_PATH_IMAGE060
B.增益函数计算
在当前训练轮次t,遍历所有维度特征k的所有划分点,根据划分点得到左分支集 合
Figure 900528DEST_PATH_IMAGE027
与右分支集合
Figure 211423DEST_PATH_IMAGE061
,计算增益函数:
Figure 137791DEST_PATH_IMAGE029
其中,
Figure 968475DEST_PATH_IMAGE062
Figure 322096DEST_PATH_IMAGE063
为调整模型过拟合程度的超参数,I为总划分点集合,通过比较不同划 分下的
Figure 120287DEST_PATH_IMAGE032
,选取最大值对应的划分为最优划分。在确定最优划分后,需要进入左右分支, 并对各分支分别进行递归计算,递归停止的条件为当前分支计算的
Figure 584767DEST_PATH_IMAGE032
小于0,说明划分 无增益。最后,所有分支联合为一个新的树分类器
Figure 519225DEST_PATH_IMAGE033
C.模型更新与下发
模拟云端服务器的主参与方节点通过合并从第一轮到当前t轮获得的所有树分类 器,得到新的树组合分类器模型
Figure 558594DEST_PATH_IMAGE064
,并将
Figure 578502DEST_PATH_IMAGE065
发送给所有参与方;
5. 各参与方基于本地的工程业务数据和更新后的模型的预测值计算相应的模型参数并将参数发送给云端服务器。
A.利用新的树分类器得到预测结果
各参与方节点在收到主参与方节点发送过来的树组合分类器模型
Figure 846673DEST_PATH_IMAGE065
后,对本 地工程业务数据样本
Figure 901216DEST_PATH_IMAGE036
进行预测得到第t轮的预测结果
Figure 596640DEST_PATH_IMAGE037
Figure 854577DEST_PATH_IMAGE038
B.计算模型参数
各个参与方j对于落在区间
Figure 926438DEST_PATH_IMAGE039
的样本
Figure 835488DEST_PATH_IMAGE036
,计算该样本关于
Figure 701813DEST_PATH_IMAGE037
对应的模型损 失函数
Figure 696314DEST_PATH_IMAGE040
的一阶导数
Figure 821134DEST_PATH_IMAGE041
和二阶导数
Figure 584691DEST_PATH_IMAGE042
,然后按每一维度特征k求和得到
Figure 621917DEST_PATH_IMAGE066
Figure 369293DEST_PATH_IMAGE067
C.模型参数传输
各参与方将自身数据计算出的区间求和导数作为模型参数
Figure 517377DEST_PATH_IMAGE045
传输到 模拟云端服务器的主参与方节点。
6. 增加训练轮次t=t+1,重复步骤4-5直至达到最大训练轮次
Figure 151752DEST_PATH_IMAGE001
并输出新的全 局风险评估模型。
通过步骤5的参数更新,重复步骤4即可进行t+1轮次的训练,并在先前数据的基础 上得到新的一棵树分类器模型
Figure 359880DEST_PATH_IMAGE068
。该过程需要不断迭代,直到
Figure 328973DEST_PATH_IMAGE069
,停止训练。结束 后,将整合后的全局风险评估模型
Figure 280748DEST_PATH_IMAGE064
向所有合作参与方下发。
判别模型得出的样本判别拥有以下四种情况:
a.真阳性类
Figure 268165DEST_PATH_IMAGE070
:样本真实类别为阳性,模型预测结果也是阳性;
b.真阴性类
Figure 647193DEST_PATH_IMAGE071
:样本真实类别为阴性,模型预测结果也是阴性;
c.假阳性类
Figure 103582DEST_PATH_IMAGE072
:样本真实类别为阴性,模型预测结果是阳性;
d.假阴性类
Figure 859049DEST_PATH_IMAGE073
:样本真实类别为阳性,模型预测结果是阴性。
本发明涉及的数据为二分类数据,包含“投保”与“不投保”两个类别。因“不投保” 类数据较少,且对这一分类数据进行错误判别会对公司造成较大的损失,因此模型的比较 标准以“不投保”数据的模型判别指标为主。若定义本发明所用的“不投保”数据为阳性类
Figure 717283DEST_PATH_IMAGE074
,“投保”数据为阴性类
Figure 17946DEST_PATH_IMAGE075
,则可以计算出“不投保”数据的精确率Precision、召回率RecallF1-Score,其含义如下:
a.精确率Precision
Figure 696052DEST_PATH_IMAGE076
被判别为阳性的数据样本中真实类别为阳性的比例,即模型针对阳性类的判别准确度;
b.召回率Recall
Figure 255209DEST_PATH_IMAGE077
真实类别为阳性的数据样本中被判别为阳性的比例;
c.F1-Score
Figure 702371DEST_PATH_IMAGE078
F1-Score是精确率与召回率的调和平均。
另外也需要比较所有样本被判别正确的比例,即总体准确率:
Figure 688782DEST_PATH_IMAGE079
本发明使用的模型训练增益函数基于XGBoost算法。实施例对分类预测中常用的逻辑回归(LR)、支持向量机(SVM)同该算法进行了对比。首先将未经映射变换的数据输入XGBoost模型进行对比,“不投保”类的模型判别指标与准确率对比结果如表2所示。
表2 三种模型的“不投保”类模型指标与准确率对比
Figure 374890DEST_PATH_IMAGE081
观察表2中的指标与准确率的对比,XGBoost算法具有更好的性能,可以为工程项目风险评估提供更为稳定、优秀的结果。因此本发明在模型构建上选用了XGBoost算法的增益函数。
接下来需要验证该协作学习模型与传统的集中式XGBoost模型的结果。针对变换过后的数据,分别训练协作学习模型和集中式的XGBoost模型,并以主参与方的测试数据集作为测试集,输出“不投保”类指标结果如表3所示。
表3 协同模型与集中式XGBoost模型结果对比
Figure 472159DEST_PATH_IMAGE083
观察发现,两种模型的指标之间差异较小,总体准确率均较高。由于能解决数据孤岛问题,协同学习的模型有较大的使用价值。
7.主参与方的工程业务数据保持不变,而每个合作参与方利用当前训练得到的全局风险评估模型对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据。
实施例中,主参与方节点的数据分为训练与测试数据集合,该部分数据固定。而在一次数据更新过程中,合作参与方节点通过使用步骤6得到的全局风险评估模型,分别对自身的所有数据进行预测。当分类值与真实分类值不符时,将数据取出,最终重新整理为工程业务数据,以备使用。主参与方在使用自身数据的基础上,可以只利用合作参与方的少量错误分类数据,进行步骤3-6的协同训练。该过程减少了数据传输,同时针对上一轮模型的分类错误进行训练,因此能够有更好的效果。
8. 重复步骤3-7直至全局风险评估模型的预测性能无法得到进一步改善。
在新一轮训练中,因为数据文件的更新,合作参与方节点仅对被挑选过的错误数 据进行
Figure 39406DEST_PATH_IMAGE084
Figure 196718DEST_PATH_IMAGE085
的计算,并传输到协调者之中。此时,主参与方节点对训练数据通过步骤3 的计算,得到相应的梯度值,并通过步骤4在中心计算节点被汇总,通过训练得出一个新的 模型,并利用测试数据进行测试,得到新的模型指标。
本实施例中,经过6次步骤3-7的循环,得到测试数据集的“不投保”类最终判别指标与总体准确率结果如表4所示。
表4 优化前后结果对比
<i>Precision</i> <i>Recall</i> <i>F1-score</i> <i>Accuracy</i>
原始模型 0.44 0.22 0.30 0.89
优化后模型 0.50 0.39 0.44 0.89
不难看出,通过针对挑选错误数据进行训练的迭代优化,最终模型得到了比初始模型更优秀的结果。需要注意,步骤3-7的重复过程不可过多,否则会导致模型的过拟合。
9.对待评估工程项目的数据进行步骤2所述的数据预处理操作,然后将预处理结果输入到步骤8得到的全局风险评估模型得到最终的风险识别结果。
本实施例以主参与方为例,对于新输入的工程项目数据,主参与方作为给出评估的主体,使用本地的数据作为协助,利用步骤2中同样的预处理与值映射操作,将预处理的工程业务数据输入步骤8结束迭代后确定的最终全局风险评估模型,即可得到风险识别结果。
如图7所示,本发明还提出一种基于多方协作的工程履约保证保险风险识别平台,基于上述实施例,所述平台包括数据输入模块、数据处理模块、模型训练模块、风险评估模块、云端服务器以及参与协作训练风险评估模型的主参与方和合作参与方;
所述数据输入模块,用于接受需要进行风险识别的工程业务数据,该模块包括向模型输入用于训练的工程业务数据或指定某需要风险评估的工程业务数据;
所述数据处理模块,用于对数据输入模块的工程业务数据执行处理操作,所述处理操作用于对所述数据进行预处理和值映射得到隐私保护后的工程业务数据;
所述主参与方和合作参与方,设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并通过模型训练模块发送给云端服务器;
所述云端服务器设定初始的训练轮次t=1,将收到各参与方发来的模型参数后通 过模型训练模块进行汇总训练,并将更新后的模型发送至各参与方重新计算模型参数,进 入下一轮训练,直到训练轮次为达到最大训练轮次
Figure 600149DEST_PATH_IMAGE001
后,得到全局风险评估模型;
所述模型训练模块,用于调用数据处理模块处理完成的数据,通过主参与方和合作参与方以及云端服务器对模型进行训练,并将合作参与方通过全局风险评估模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据,重新进行模型训练,直至全局风险评估模型的预测性能无法得到进一步改善,得到用于实际预测的最终的全局风险评估模型;
所述风险评估模块,依据模型训练模块得到的最终的全局风险评估模型,给出数据处理模块处理后的需要进行预测的工程项目数据的风险评估结果。
进一步地,所述数据输入模块包括从外界接受统一方式输入的数据,并存入数据库。
进一步地,所述数据处理模块包括文字特征离散化模块、数值特征过滤模块和数据映射模块:
所述文字特征离散化模块,用于针对所述工程业务数据的文字量进行独热编码处理,转化为离散数字数据;
所述数值特征过滤模块,用于针对所述工程业务数据的数值特征进行缺失值填充处理,获得模型可用的数据;
所述数据映射模块,以主参与方为标准,将拥有的工程业务数据映射到新的数据区间内,主参与方进行映射所需的步长和业务数据最小值向合作参与方广播,合作参与方执行相同的映射过程;
所述模型训练模块包括参数发送模块、模型汇总与训练模块和数据更新模块:
所述参数发送模块,用于使不同参与方计算模型参数并传输到云端服务器;
所述模型汇总与训练模块,用于汇总各参与方上传的模型参数,训练并产生基准模型,利用分布式算法进行合并训练,并向参与方进行模型分发;
所述数据更新模块,用于每个合作参与方利用已训练的模型,对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据。
本发明不仅局限于上述具体实施方式,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方案实施本发明。因此,凡是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落入本发明保护范围。

Claims (7)

1.一种基于多方协作的工程履约保证保险风险识别方法,其特征在于,所述方法包括如下步骤:
S1:将参与协作训练风险评估模型的参与方分成主参与方和合作参与方,云端服务器设定最大训练轮次为
Figure DEST_PATH_IMAGE002
S2:各参与方对本地存储的工程项目信息数据进行预处理操作和值映射操作得到隐私保护后的工程业务数据;
S3:云端服务器设定初始的训练轮次t=1,各参与方设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并发送给云端服务器;具体包括如下步骤:
S31:各个参与方对于本地工程业务数据的每一维度特征k,根据获得的
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006
确定均匀切分点
Figure DEST_PATH_IMAGE008
和相应的N个划分区间,m为切分点;
Figure 498577DEST_PATH_IMAGE004
Figure 150138DEST_PATH_IMAGE006
为每个维度特征k对应的最小值和步长;
S32:各个参与方j对于落在区间
Figure DEST_PATH_IMAGE010
的本地工程业务数据样本
Figure DEST_PATH_IMAGE012
,在模型初始预测值
Figure DEST_PATH_IMAGE014
这一点上计算该样本对应的模型损失函数
Figure DEST_PATH_IMAGE016
的一阶导数
Figure DEST_PATH_IMAGE018
和二阶导数
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
为与样本
Figure 257772DEST_PATH_IMAGE012
对应的样本类别,然后按每一维度特征k求和得到一阶导数求和的值
Figure DEST_PATH_IMAGE024
和二阶导数求和的值
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
为样本
Figure 574353DEST_PATH_IMAGE012
的第k个维度特征取值;
S33:各参与方将模型参数
Figure DEST_PATH_IMAGE030
传输到云端服务器;
S4:云端服务器收到模型参数后进行汇总训练,将更新后的模型发送至各参与方;
S5:各参与方基于本地的工程业务数据和更新后的模型的预测值计算相应的模型参数并将参数发送给云端服务器;
S6:增加训练轮次t=t+1,重复步骤S4-S5直至达到最大训练轮次
Figure 591987DEST_PATH_IMAGE002
并输出新的全局风险评估模型;
S7:主参与方的工程业务数据保持不变,而每个合作参与方利用步骤S6训练得到的全局风险评估模型对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据;
S8:重复步骤S3-S7直至全局风险评估模型的预测性能无法得到进一步改善,得到最终的全局风险评估模型;
S9:对待评估工程项目的数据进行步骤S2所述的预处理操作,然后将预处理结果输入到步骤S8得到的最终的全局风险评估模型得到最终的风险识别结果。
2.根据权利要求1所述的一种基于多方协作的工程履约保证保险风险识别方法,其特征在于,步骤S2具体包括:
S21:各个参与方对于工程业务数据中以文字形式描述的类别特征进行独热编码处理得到离散数值型特征,同时,各个参与方对于工程业务数据中以数值形式描述的特征利用中位值填充方法对缺失值进行填充,完成数据预处理;
S22:主参与方对预处理后的本地工程业务数据中每个维度特征i,计算其最大值
Figure DEST_PATH_IMAGE032
与最小值
Figure DEST_PATH_IMAGE034
,并设定区间数N,根据如下公式计算步长
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
然后主参与方对于第i维特征对应的本地所有数据值data执行如下值映射操作:
Figure DEST_PATH_IMAGE040
此处
Figure DEST_PATH_IMAGE042
代表四舍五入,
Figure DEST_PATH_IMAGE044
为值映射结果;
S23:主参与方将每个维度特征i对应的最小值
Figure 991613DEST_PATH_IMAGE034
和步长
Figure 993067DEST_PATH_IMAGE036
发送给合作参与方,合作参与方按照S22的过程对本地工程业务数据完成值映射操作。
3.根据权利要求1所述的一种基于多方协作的工程履约保证保险风险识别方法,其特征在于,步骤S4具体包括:
S41:云端服务器在接收到各个参与方发送过来的模型参数
Figure DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE048
后,汇总计算得到所有参与方的模型参数的求和值
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
S42:在当前训练轮次t,遍历所有维度特征k的所有划分点,根据划分点得到左分支集合
Figure DEST_PATH_IMAGE054
与右分支集合
Figure DEST_PATH_IMAGE056
,计算增益函数:
Figure DEST_PATH_IMAGE058
其中,
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE062
为调整模型过拟合程度的超参数,I为总划分点集合,通过比较不同划分下的
Figure DEST_PATH_IMAGE064
,选取最大值对应的划分为最优划分,进入左右分支并进行递归计算直至
Figure 237973DEST_PATH_IMAGE064
都小于0,输出一个新的树分类器
Figure DEST_PATH_IMAGE066
S43:合并当前获得的所有树分类器得到新的树组合分类器模型
Figure DEST_PATH_IMAGE068
,并将
Figure DEST_PATH_IMAGE070
发送给所有参与方。
4.根据权利要求3所述的一种基于多方协作的工程履约保证保险风险识别方法,其特征在于,步骤S5具体包括:
S51:各个参与方在收到云端服务器发送过来的树组合分类器模型后,对本地工程业务数据样本
Figure DEST_PATH_IMAGE072
进行预测得到第t轮的预测结果
Figure DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE076
S52:各个参与方j对于落在区间
Figure DEST_PATH_IMAGE078
的样本
Figure DEST_PATH_IMAGE072A
,计算该样本关于
Figure 703589DEST_PATH_IMAGE074
对应的模型损失函数
Figure DEST_PATH_IMAGE080
的一阶导数
Figure DEST_PATH_IMAGE082
和二阶导数
Figure DEST_PATH_IMAGE084
,然后按每一维度特征k求和得到
Figure DEST_PATH_IMAGE086
Figure DEST_PATH_IMAGE088
S53:各参与方将模型参数
Figure DEST_PATH_IMAGE090
传输到云端服务器。
5.一种基于多方协作的工程履约保证保险风险识别平台,其特征在于,所述平台包括数据输入模块、数据处理模块、模型训练模块、风险评估模块、云端服务器以及参与协作训练风险评估模型的主参与方和合作参与方;
所述数据输入模块,用于接受需要进行风险识别的工程业务数据,该模块包括向模型输入用于训练的工程业务数据或指定某需要风险评估的工程业务数据;
所述数据处理模块,用于对数据输入模块的工程业务数据执行处理操作,所述处理操作用于对所述数据进行预处理和值映射得到隐私保护后的工程业务数据;
所述主参与方和合作参与方,设定模型的初始预测值为0,然后基于本地的工程业务数据和模型初始预测值分别计算相应的模型参数并通过模型训练模块发送给云端服务器;
所述云端服务器设定初始的训练轮次t=1,将收到各参与方发来的模型参数后通过模型训练模块进行汇总训练,并将更新后的模型发送至各参与方重新计算模型参数,进入下一轮训练,直到训练轮次为达到最大训练轮次
Figure 821587DEST_PATH_IMAGE002
后,得到全局风险评估模型;
所述模型训练模块包括参数发送模块、模型汇总与训练模块和数据更新模块,用于调用数据处理模块处理完成的数据,通过主参与方和合作参与方以及云端服务器对模型进行训练,并将合作参与方通过全局风险评估模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据,重新进行模型训练,直至全局风险评估模型的预测性能无法得到进一步改善,得到用于实际预测的最终的全局风险评估模型;具体为:
所述参数发送模块,用于使不同参与方计算模型参数并传输到云端服务器;具体如下:
a,各个参与方对于本地工程业务数据的每一维度特征k,根据获得的
Figure 44758DEST_PATH_IMAGE004
Figure 765458DEST_PATH_IMAGE006
确定均匀切分点
Figure 23264DEST_PATH_IMAGE008
和相应的N个划分区间,m为切分点;
Figure 187529DEST_PATH_IMAGE004
Figure 163575DEST_PATH_IMAGE006
为每个维度特征k对应的最小值和步长;
b,各个参与方j对于落在区间
Figure 173120DEST_PATH_IMAGE010
的本地工程业务数据样本
Figure 285432DEST_PATH_IMAGE012
,在模型初始预测值
Figure 355019DEST_PATH_IMAGE014
或者第t轮的预测结果
Figure DEST_PATH_IMAGE091
上计算该样本对应的模型损失函数
Figure DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE093
的一阶导数
Figure 5312DEST_PATH_IMAGE018
和二阶导数
Figure 818547DEST_PATH_IMAGE020
Figure 50946DEST_PATH_IMAGE022
为与样本
Figure 557013DEST_PATH_IMAGE012
对应的样本类别,然后按每一维度特征k求和得到一阶导数求和的值
Figure DEST_PATH_IMAGE094
和二阶导数求和的值
Figure DEST_PATH_IMAGE095
Figure 694603DEST_PATH_IMAGE028
为样本
Figure 45949DEST_PATH_IMAGE012
的第k个维度特征取值;
c,各参与方将模型参数
Figure 132854DEST_PATH_IMAGE030
传输到云端服务器;
所述模型汇总与训练模块,用于汇总各参与方上传的模型参数,训练并产生基准模型,利用分布式算法进行合并训练,并向参与方进行模型分发;具体如下:
a,云端服务器在接收到各个参与方发送过来的模型参数
Figure 793512DEST_PATH_IMAGE046
Figure 965867DEST_PATH_IMAGE048
后,通过模型汇总与训练模块汇总计算得到所有参与方的模型参数的求和值
Figure DEST_PATH_IMAGE096
Figure 855325DEST_PATH_IMAGE052
b,在当前训练轮次t,遍历所有维度特征k的所有划分点,根据划分点得到左分支集合
Figure 796737DEST_PATH_IMAGE054
与右分支集合
Figure 644607DEST_PATH_IMAGE056
,计算增益函数:
Figure 304258DEST_PATH_IMAGE058
其中,
Figure 246675DEST_PATH_IMAGE060
Figure 42593DEST_PATH_IMAGE062
为调整模型过拟合程度的超参数,I为总划分点集合,通过比较不同划分下的
Figure 61365DEST_PATH_IMAGE064
,选取最大值对应的划分为最优划分,进入左右分支并进行递归计算直至
Figure 208312DEST_PATH_IMAGE064
都小于0,输出一个新的树分类器
Figure 970732DEST_PATH_IMAGE066
c,合并当前获得的所有树分类器得到新的树组合分类器模型
Figure 621156DEST_PATH_IMAGE068
,并将
Figure 794517DEST_PATH_IMAGE070
发送给所有参与方;各个参与方在收到云端服务器发送过来的树组合分类器模型后,对本地工程业务数据样本
Figure DEST_PATH_IMAGE072AA
进行预测得到第t轮的预测结果
Figure 897603DEST_PATH_IMAGE074
Figure 932555DEST_PATH_IMAGE076
所述数据更新模块,用于每个合作参与方利用已训练的模型,对本地工程业务数据进行预测,并将被模型错误预测的工程业务数据挑选出来构成新的本地工程业务数据;
所述风险评估模块,依据模型训练模块得到的最终的全局风险评估模型,给出数据处理模块处理后的需要进行预测的工程项目数据的风险评估结果。
6.根据权利要求5所述的一种基于多方协作的工程履约保证保险风险识别平台,其特征在于,所述数据输入模块包括从外界接受统一方式输入的数据,并存入数据库。
7.根据权利要求5所述的一种基于多方协作的工程履约保证保险风险识别平台,其特征在于,所述数据处理模块包括文字特征离散化模块、数值特征过滤模块和数据映射模块:
所述文字特征离散化模块,用于针对工程业务数据的文字量进行独热编码处理,转化为离散数字数据;
所述数值特征过滤模块,用于针对工程业务数据的数值特征进行缺失值填充处理,获得模型可用的数据;
所述数据映射模块,以主参与方为标准,将拥有的工程业务数据映射到新的数据区间内,主参与方进行映射所需的步长和业务数据最小值向合作参与方广播,合作参与方执行相同的映射过程;具体如下:
主参与方对预处理后的本地工程业务数据中每个维度特征i,计算其最大值
Figure 968644DEST_PATH_IMAGE032
与最小值
Figure 63639DEST_PATH_IMAGE034
,并设定区间数N,根据如下公式计算步长
Figure 434446DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE097
然后主参与方对于第i维特征对应的本地所有数据值data执行如下值映射操作:
Figure 273089DEST_PATH_IMAGE040
此处
Figure 632526DEST_PATH_IMAGE042
代表四舍五入,
Figure 164002DEST_PATH_IMAGE044
为值映射结果;
主参与方将每个维度特征i对应的最小值
Figure 507258DEST_PATH_IMAGE034
和步长
Figure 415172DEST_PATH_IMAGE036
发送给合作参与方,合作参与方按照与主参与方相同的操作对本地工程业务数据完成值映射操作。
CN202010750631.0A 2020-07-30 2020-07-30 基于多方协作的工程履约保证保险风险识别方法与平台 Active CN111626886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010750631.0A CN111626886B (zh) 2020-07-30 2020-07-30 基于多方协作的工程履约保证保险风险识别方法与平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010750631.0A CN111626886B (zh) 2020-07-30 2020-07-30 基于多方协作的工程履约保证保险风险识别方法与平台

Publications (2)

Publication Number Publication Date
CN111626886A CN111626886A (zh) 2020-09-04
CN111626886B true CN111626886B (zh) 2020-10-30

Family

ID=72272241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010750631.0A Active CN111626886B (zh) 2020-07-30 2020-07-30 基于多方协作的工程履约保证保险风险识别方法与平台

Country Status (1)

Country Link
CN (1) CN111626886B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700031B (zh) * 2020-12-12 2023-03-31 同济大学 一种保护多方数据隐私的XGBoost预测模型训练方法
CN112464287B (zh) * 2020-12-12 2022-07-05 同济大学 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844901A (zh) * 2017-11-01 2018-03-27 前海梧桐(深圳)数据有限公司 一种企业运营自动化分析的方法及其系统
CN111081337A (zh) * 2020-03-23 2020-04-28 腾讯科技(深圳)有限公司 一种协同任务预测方法及计算机可读存储介质
US10679128B2 (en) * 2017-02-03 2020-06-09 Milestone Entertainment, LLC Architectures, systems and methods for program defined transaction system and decentralized cryptocurrency system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550927A (zh) * 2015-11-30 2016-05-04 吉林大学 一种银行信贷系统风险评估方法及装置
CN111027715B (zh) * 2019-12-11 2021-04-02 支付宝(杭州)信息技术有限公司 基于蒙特卡洛的联邦学习模型训练方法及装置
CN111461874A (zh) * 2020-04-13 2020-07-28 浙江大学 一种基于联邦模式的信贷风险控制系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679128B2 (en) * 2017-02-03 2020-06-09 Milestone Entertainment, LLC Architectures, systems and methods for program defined transaction system and decentralized cryptocurrency system
CN107844901A (zh) * 2017-11-01 2018-03-27 前海梧桐(深圳)数据有限公司 一种企业运营自动化分析的方法及其系统
CN111081337A (zh) * 2020-03-23 2020-04-28 腾讯科技(深圳)有限公司 一种协同任务预测方法及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
协同项目风险管理智能决策支持系统;张宏国 等;《微计算机信息》;20100125;第26卷(第1-3期);第23页左栏第1段-第24页右栏第8段,摘要 *

Also Published As

Publication number Publication date
CN111626886A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
Toloo et al. A non-radial directional distance method on classifying inputs and outputs in DEA: Application to banking industry
Emrouznejad et al. Fuzzy assessment of performance of a decision making units using DEA: A non-radial approach
CN111626886B (zh) 基于多方协作的工程履约保证保险风险识别方法与平台
CN111080338B (zh) 用户数据的处理方法、装置、电子设备及存储介质
CN109767312B (zh) 一种信用评估模型训练、评估方法与装置
CN108898476A (zh) 一种贷款客户信用评分方法和装置
CN112819604A (zh) 基于融合神经网络特征挖掘的个人信用评估方法与系统
CN107770783B (zh) 一种基站扩容改造方案设计方法及相关设备
CN109740160B (zh) 一种基于人工智能语义分析的任务发布方法
CN111723948A (zh) 基于演化计算的联邦学习方法、装置、设备及介质
CN111738870B (zh) 基于特征工程的工程履约保证保险风险识别方法与平台
CN116612595A (zh) 一种基于联邦学习的森林火灾预测方法及系统
CN111192158A (zh) 一种基于深度学习的变电站日负荷曲线相似度匹配方法
Faizi et al. A Multicriteria Decision‐Making Approach Based on Fuzzy AHP with Intuitionistic 2‐Tuple Linguistic Sets
Kumar et al. Automation of software cost estimation using neural network technique
US20230252387A1 (en) Apparatus, method and recording medium storing commands for providing artificial-intelligence-based risk management solution in credit exposure business of financial institution
Zhang et al. Edge-based formulation with graph attention network for practical vehicle routing problem with time windows
CN116049678A (zh) 特征贡献度评估方法、装置、电子设备和存储介质
Gloudemans FIAAO et al. The potential of artificial intelligence in property assessment
CN115409541A (zh) 基于数据血缘的卷烟品牌数据处理方法
Zou et al. An improved grey Markov chain model with ANN error correction and its application in gross domestic product forecasting
Nishitha et al. Stock price prognosticator using machine learning techniques
CN114240318A (zh) 面向目标对象的信息处理方法、装置、计算机设备
Le et al. A method for project completion cost predicting using lstm in earned value management technique
CN113158088A (zh) 一种基于图神经网络的位置推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant