CN114818011A - 一种适用碳信用评价的联邦学习方法、系统及电子设备 - Google Patents
一种适用碳信用评价的联邦学习方法、系统及电子设备 Download PDFInfo
- Publication number
- CN114818011A CN114818011A CN202210733412.0A CN202210733412A CN114818011A CN 114818011 A CN114818011 A CN 114818011A CN 202210733412 A CN202210733412 A CN 202210733412A CN 114818011 A CN114818011 A CN 114818011A
- Authority
- CN
- China
- Prior art keywords
- target
- federal
- model
- participating
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 229910052799 carbon Inorganic materials 0.000 title claims abstract description 87
- 238000011156 evaluation Methods 0.000 title claims abstract description 86
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 title claims abstract description 80
- 238000005457 optimization Methods 0.000 claims abstract description 77
- 230000003993 interaction Effects 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 29
- 238000013475 authorization Methods 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 32
- 238000004364 calculation method Methods 0.000 description 28
- 238000004891 communication Methods 0.000 description 19
- 238000005265 energy consumption Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000011161 development Methods 0.000 description 8
- 230000007613 environmental effect Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 239000008186 active pharmaceutical agent Substances 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 7
- 238000007477 logistic regression Methods 0.000 description 7
- 238000005065 mining Methods 0.000 description 7
- 238000012797 qualification Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 238000012550 audit Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000004134 energy conservation Methods 0.000 description 4
- 238000013210 evaluation model Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- MWUXSHHQAYIFBG-UHFFFAOYSA-N Nitric oxide Chemical compound O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 2
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 239000003245 coal Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 1
- XKMRRTOUMJRJIA-UHFFFAOYSA-N ammonia nh3 Chemical compound N.N XKMRRTOUMJRJIA-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 239000003034 coal gas Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000002283 diesel fuel Substances 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000003546 flue gas Substances 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 239000003502 gasoline Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
- G06Q10/06375—Prediction of business process outcome or impact based on a proposed change
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q2220/00—Business processing using cryptography
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Educational Administration (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种适用碳信用评价的联邦学习方法、系统及电子设备,方法包括:获取目标参与节点的目标联邦子模型,目标联邦子模型是由联邦模型拆分后得到的,联邦模型包括至少3个联邦子模型,目标联邦子模型包括模型参数以及目标参与节点的目标特征;获取当前网络时延以及目标特征的预设优化次数;基于当前网络时延与预设优化次数对应的预设网络时延的差异,确定当前优化次数;根据当前优化次数对目标特征进行本地优化;将目标特征的优化结果与其他参与节点进行加密交互,以对模型参数进行优化确定目标联邦子模型的目标模型参数。本技术方案提升了多方数据交互时的安全性。
Description
技术领域
本发明涉及信息安全领域,具体涉及一种适用碳信用评价的联邦学习方法、系统及电子设备。
背景技术
区块链技术是一种去中心化的分布式数据库技术,具有去中心化以及难以篡改等特点,区块链所记录的信息更加真实可靠,随着网络技术的快速发展,区块链的相关技术日渐完善成熟。
联邦学习是在保障大数据交换时的信息安全、保护终端数据以及个人数据隐私、保证合法合规的前提下,在多参与方或多计算节点之间开展高效率的机器学习的一种新兴人工智能基础技术,采用一种去中心化分布系统保证用户的隐私安全。区块链作为一个去中心化、数据加密、不可篡改的分布式共享数据库,可以为联邦学习的数据交换提供数据保密性,从而保证各参与方之间的数据安全。
出于数据隐私保护法律法规的日趋完善,当需要多方数据参与时,通过数据集中和数据交换整合不同行业的数据资源面临越来越多的限制和风险,在这个过程中需要满足多方数据的隐私保护。
发明内容
有鉴于此,本发明实施例提供了一种适用碳信用评价的联邦学习方法、系统、电子设备及存储介质,以解决多方数据交互时的隐私安全性不足的问题。
根据第一方面,本发明实施例提供了一种适用碳信用评价的联邦学习方法,包括:
获取所述目标参与节点的目标联邦子模型,所述目标联邦子模型是由联邦模型拆分后得到的,所述联邦模型包括至少3个联邦子模型,所述目标联邦子模型包括模型参数以及所述目标参与节点的目标特征;
获取当前网络时延以及目标特征的预设优化次数;
基于所述当前网络时延与所述预设优化次数对应的预设网络时延的差异,确定当前优化次数;
根据当前优化次数对所述目标特征进行本地优化;
将所述目标特征的优化结果与其他参与节点进行加密交互,以对模型参数进行优化确定所述目标联邦子模型的目标模型参数。
本发明实施例提供的适用碳信用评价的联邦学习方法,将联邦子模型分发至对应的各参与节点,目标参与节点基于网络时延以及对目标特征的预设优化次数确定当前优化次数,并在参与节点之间进行加密交互计算前基于当前优化次数在本地进行优化,在进行加密交互计算后确定目标联邦子模型的目标模型参数,提升了多方参与模型的安全性。
在一个实施方式中,当前优化次数采用如下公式计算得到:
在一个实施方式中,所述将所述目标特征的优化结果与其他参与节点进行加密交互,包括:
基于同态加密算法计算公钥和私钥,并将所述公钥发送给其他参与节点;
计算目标联邦子模型对应的模型参数与目标特征的乘积,以及模型参数与目标特征的乘积的平方项,并将所述乘积以及乘积的平方项发送给其他参与节点;
将采用指定其他参与节点的公钥加密的密文梯度发送给对应的其他所有参与节点。
在一个实施方式中,在所述将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点之前,还包括:
接收其他参与节点采用所述指定参与节点的公钥加密后的模型参数与对应目标特征的乘积,以及模型参数与对应目标特征的乘积的平方项;
基于所述接收的其他参与节点发送的乘积以及乘积的平方项,确定密文目标函数;
基于所述密文目标函数计算所述目标参与节点的密文梯度,所述密文梯度采用指定参与节点的公钥加密,所述密文目标函数采用如下公式计算得到:
所述目标参与节点的密文梯度为:
式中,L表示所述密文目标函数,y i 表示全局模型预测值,表示参与节点对应的
联邦子模型的模型参数,表示参与节点对应的目标特征,,表示所述目标联邦子
模型的模型参数,表示所述目标参与节点的目标特征,表示所述采用指定参
与节点的公钥加密的密文梯度。
在一个实施方式中,在所述将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点之后,还包括:
接收所述其他参与节点对所述目标参与节点的密文梯度解密后的梯度结果,以确定所述目标联邦子模型的目标模型参数。
本发明实施例提供的适用碳信用评价的联邦学习方法,采用同态加密算法进行参与节点之间的加密交互,利用加法和乘法在密文下进行运算,保障了参与节点之间进行数据交互过程中的安全性,且通过该训练方法得到联邦子模型中的参数。
在一个实施方式中,在获取所述目标参与节点的目标联邦子模型之前,所述方法还包括:
从数据集中提取数据特征,作为数据原始特征;
计算所述数据特征的信息熵,并基于所述信息熵计算数据特征的属性重要度,以实现对所述数据特征的优化,得到数据深度特征;
对所述数据原始特征和所述数据深度特征进行融合,得到所述目标参与节点的目标特征。
在一个实施方式中,信息熵采用如下公式计算得到:
所述属性重要度采用如下公式计算得到:
在一个实施方式中,所述方法还包括:
向所述其他参与节点发出加密后的所述联邦子模型授权请求;
基于智能合约验证所述其他参与节点并判断是否授权,基于判断结果向所述其他参与节点发送授权令牌;
接收所述其他参与节点的授权令牌,以完成联邦子模型的上链授权。
根据第二方面,本发明实施例提供了一种联邦学习系统,包括:
至少三个参与节点,所述参与节点用于执行第一方面或第一方面的任意一种实施方式中所述的适用碳信用评价的联邦学习方法。
根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的适用碳信用评价的联邦学习方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的适用碳信用评价的联邦学习方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的联邦学习方法的流程图;
图2是根据本发明实施例的确定目标特征的流程图;
图3是根据本发明实施例的加密交互的方法的流程图;
图4是根据本发明实施例的加密交互的方法的流程图;
图5是根据本发明实施例的联邦学习方法的流程图;
图6是根据本发明实施例的联邦学习方法的流程图;
图7是根据本发明实施例的联邦学习方法的流程图;
图8是根据本发明实施例的碳信用评价的联邦系统示意图;
图9是根据本发明实施例的基于碳信用评价的联邦平台装置的结构示意图;
图10是根据本发明实施例的电子设备的硬件结构示意图;
图11是根据本发明实施例的联邦学习系统的结构示意图;
图12是根据本发明实施例的适用碳信用评价的联邦学习系统的功能模块示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图11所示,根据本发明实施例,提供了一种适用碳信用评价的联邦学习系统,包括至少三个参与节点,参与节点用于执行联邦学习方法。碳信用是指经过联合国或联合国认可的减排组织认证的条件下,国家或企业以增加能源使用效率、减少污染或减少开发等方式减少碳排放,因此得到可以进入碳交易市场的碳排放计量单位,联邦学习系统中的参与节点可以包括能源企业、环保部门以及金融企业。适用碳信用评价的联邦学习系统包括如图12所示的功能模块,具体见下文实施例。
根据本发明实施例,提供了一种联邦学习方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种适用碳信用评价的联邦学习方法,可用于如手机、电脑、平板电脑等,图1是根据本发明实施例的联邦学习方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取目标参与节点的目标联邦子模型。
根据需求构建多方联邦模型,联邦模型是基于联邦学习的模型,联邦模型通常包含多方参与节点,参与节点即参与该联邦模型的业务机构,通常联邦学习包括水平联邦学习和纵向联邦学习,其中纵向联邦学习对应于两个以上的不同机构。对联邦模型进行拆分可以得到与每个参与节点对应的联邦子模型,本方案的联邦学习方法中的联邦模型中可以包括至少3个联邦子模型。
目标参与节点为多各参与节点中的其中一个,目标联邦子模型为该目标参与节点对应的联邦子模型目标联邦子模型包括模型参数以及目标参与节点的目标特征,通过对参与节点的数据属性进行筛选和处理可以得到目标特征,不同的参与节点有其对应的目标特征。需要说明的是,对其他参与节点对应的联邦模型也采用一样的计算方法。
S12,获取当前网络时延以及目标特征的预设优化次数。
S13,基于当前网络时延与预设优化次数对应的预设网络时延的差异,确定当前优化次数。
在联邦学习系统中,各个参与节点获取各自对应的联邦子模型后需要对联邦子模型进行训练,训练过程中需要与其他参与节点进行交互以获取需要的数据,而联邦模型的各个参与节点可能分布在各个地方,因此,网络中的通信效率会对整体速度产生较大的影响。若通信网络的速度较为缓慢,为了提升交互的效率,可以适当减少参与节点之间的交互频次,调整对目标特征的预设优化次数,即在本次交互计算前在本地的优化次数,得到当前优化次数。
在一个实施方式中,当前优化次数采用如下公式计算得到:
S14,根据当前优化次数对目标特征进行本地优化。
在确定当前优化次数后对参与节点对应的目标特征进行优化。
S15,将目标特征的优化结果与其他参与节点进行加密交互,以对模型参数进行优化确定目标联邦子模型的目标模型参数。
基于得到的对目标特征的优化,联邦学习的本质是安全的跨域联合建模,因此需要对参与节点进行加密交互计算,以保护各参与节点的隐私,加密交互计算可采用同态加密、差分隐私、不经意传输等。基于加密交互计算,得到联邦子模型参数的梯度,梯度可以表示联邦子模型中的模型参数的优化方向,确认优化较好的梯度后即可确定目标联邦子模型的目标模型参数,从而完成对联邦子模型的训练。
联邦子模型参数的梯度采用如下公式计算得到:
本发明实施例提供的适用碳信用评价的联邦学习方法,将联邦子模型分发至对应的各参与节点,目标参与节点基于网络时延以及对目标特征的预设优化次数确定当前优化次数,并在参与节点之间进行加密交互计算前基于当前优化次数在本地进行优化,在进行加密交互计算后确定目标联邦子模型的目标模型参数,提升了多方参与模型的安全性。
在本实施例中提供了确定目标特征的方法,用于在获取目标参与节点的目标联邦子模型之前,即,对应于图1所示实施例中的S11,图2是根据本发明实施例的确定目标特征的方法的流程图,如图2所示,该流程包括如下步骤:
S21,从数据集中提取数据特征,作为数据原始特征。
基于所需要构建的联邦模型的需求,参与节点选取数据特征构建数据集,每个参与节点有其对应的数据集,从该数据集中提取数据特征作为该参与节点的数据原始特征,其中数据特征可以为数据的属性。
S22,计算数据特征的信息熵,并基于信息熵计算数据特征的属性重要度,以实现对数据特征的优化,得到数据深度特征。
对数据特征进行信息熵计算,基于得到的信息熵度量各数据特征的重要程度,从而实现对数据特征的属性优化,避免不重要的特征参与深度特征合成。之后通过特征处理可以生成数据深度特征,特征处理包括了特征增强、特征转换、特征降维、特征选择和特征标准化等。
在一个实施方式中,信息熵采用如下公式计算得到:
所述属性重要度采用如下公式计算得到:
S23,对数据原始特征和数据深度特征进行融合,得到目标参与节点的目标特征。
将得到的数据原始特征和数据深度特征进行融合,构成数据特征空间,即,目标参与节点的目标特征。需要说明的是,其他参与节点也采用同样的方式确定对应的目标特征。
在本实施例中提供了加密交互的方法,即,对应于图1所示实施例中的S15,图3是根据本发明实施例的加密交互的方法的流程图,如图3所示,该流程包括如下步骤:
S31,基于同态加密算法计算公钥和私钥,并将公钥发送给其他参与节点。
S32,计算目标联邦子模型对应的模型参数与目标特征的乘积,以及模型参数与目标特征的乘积的平方项,并将乘积以及乘积的平方项发送给其他参与节点。
S33,将采用指定其他参与节点的公钥加密的密文梯度发送给对应的其他所有参与节点。
指定其他参与节点可以由目标参与节点进行指定,即可以为其他任一参与节点,此时目标参与节点为加密交互的主导方。当目标参与节点为加密交互的参与方时,可以采用主导方参与节点的公钥对目标参与节点以及其他参与方节点的梯度进行加密。
在S33之前还包括如图4所示的流程,该流程包括如下步骤:
S41,接收其他参与节点采用所述指定参与节点的公钥加密后的模型参数与对应目标特征的乘积,以及模型参数与对应目标特征的乘积的平方项。
S42,基于接收的其他参与节点发送的乘积以及乘积的平方项,确定密文目标函数。
S43,基于密文目标函数计算所述目标参与节点的密文梯度。
密文梯度采用指定参与节点的公钥加密,所述密文目标函数采用如下公式计算得到:
所述目标参与节点的密文梯度为:
式中,L表示所述密文目标函数,y i 表示全局模型预测值,表示参与节点对应的联
邦子模型的模型参数,表示参与节点对应的目标特征,,表示所述目标联邦子
模型的模型参数,表示所述目标参与节点的目标特征,表示所述采用指定参
与节点的公钥加密的密文梯度。
在一个实施例中,在S33之后,还包括:接收所述其他参与节点对目标参与节点的密文梯度解密后的梯度结果,以确定目标联邦子模型的目标模型参数。
下面对上述加密交互的方法进行具体描述,该加密交互的方法可以采用Paillier
同态加密隐私安全交互算法,以联邦模型包括3个联邦子模型为例,假设逻辑回归模型参数
为为,分别为第一参与节点、第二参与节点和第三参与节点的模型参
数,则总的线性模型,即,联邦模型为:
逻辑回归将联邦模型产生的预测值通过激活函数映射到0~1之间,激活函数如下:
得到联合目标函数为:
由于同态加密只能计算多项式函数,故使用泰勒公式在0点展开,则联合目标函数近似模拟为:
因此,对第一参与节点、第二参与节点和第三参与节点三方来说,其本地子模型参数的梯度即为:
在纵向联邦学习的计算中,安全计算出梯度信息,寻找到目标函数的收敛值即完成了模型的训练。Paillier同态加密满足密文的加法与数乘,三方的加密交互流程如下:
(1)三方分别生成同态加密的公私钥对,并将公钥发给其他两方。
同时并计算本地梯度
(17)重复上述步骤(1)-(16),直至模型收敛。
本发明实施例提供的联邦学习方法,采用同态加密算法进行参与节点之间的加密交互,利用加法和乘法在密文下进行运算,保障了参与节点之间进行数据交互过程中的安全性,且通过该训练方法得到联邦子模型中的参数。
在本实施例中提供的联邦学习方法,用于在对联邦模型进行训练之前,图5是根据本发明实施例的联邦学习方法的流程图,如图5所示,该流程包括如下步骤:
S51,向其他参与节点发出加密后的联邦子模型授权请求。
S52,基于智能合约验证其他参与节点并判断是否授权,基于判断结果向其他参与节点发送授权令牌。
S53,接收其他参与节点的授权令牌,以完成联邦子模型的上链授权。
在联邦学习中引入区块链技术,通过区块链智能合约实现各参与节点数据的授权管理,通过训练参数上链实现联邦模型训练过程的审计追溯,以及通过联邦模型的链上发布实现了模型的使用审计。
在联邦模型训练前,需要对各参与节点对应的联邦子模型以及对应的特征进行授
权,可以采用智能合约进行授权,具体为:当目标参与节点向其他参与节点
请求使用时,节点首先查验节点身份,然后智能合约根据访问约束条件(例
如子模型授权范围、时效、次数等),查验节点访问合法性,返回授权令牌或拒绝消息。
节点获取的授权令牌后,通过联邦学习开始进行联邦子模型的训练,加密交
互过程中的梯度、参数经过链上共识后存入区块中。
下面以碳信用评价为例对本发明提供的联邦学习方法进行具体说明,如图8所示,其为碳信用评价的联邦系统示意图。随着低碳经济发展逐渐被引起重视,节约能源和实现可持续发展成为国家计划的一个重要部分。政策要求发展低碳经济,倡导企业节能减排,银行信贷支持企业节能减排,碳信用评价就是能源企业和金融企业在配合国家政策的情况下,对企业制定的一些鼓励其节能减排、绿色低碳发展的信贷措施,通过低碳经济激励,促进金融与绿色低碳经济循环发展。
碳信用评价是能源数据赋能绿色金融场景,根据国家绿色金融业务要求,碳信用评价要考虑企业能耗情况、环保情况和金融情况等多方因素,综合评估企业的贷款申请,因此碳信用评价的决策过程中就需要能源企业、环保部门、金融企业等多方数据的协同分析。
请参阅图6以及图7,基于碳信用评价的联邦学习过程具体如下文描述:
构建碳信用评价业务数据空间构建,数据空间即目标特征,数据空间构造是通过深入分析碳信用评价业务数据语义、业务逻辑和业务目标,从业务数据中选取与碳信用评价具有紧耦合关系的数据集,碳信用评价属于能源数据赋能绿色金融、绿色金融反促绿色能源的双碳经济发展业务,根据国家双碳政策和绿色金融要求,通过对企业能源数据、金融数据和环保数据的综合评价,衡量企业的碳信用评价情况。碳信用评价数据空间的具体构造如下:
(1)能源数据:由于碳信用评价业务衡量的对象是企业的能源消耗情况、能耗产值情况和碳排放情况,因此碳信用评价模型的能源数据集主要包含了企业的电、气、煤、油等能源能耗数据、企业生产总值、企业碳排放权等数据,能源数据集表示如下:
(2)金融数据:碳信用评价业务在金融方面衡量因素和其他金融贷相同,主要是衡量企业碳信用评价额度、利率、期限等本次申请数据和累计贷款额、信用记录等历史金融记录,金融数据集表示如下:
(3)环保数据:碳信用评价业务在环保方面衡量的是企业对环境的影响,主要分水质监测和烟气监测两大类。水质监测中主要针对大小污水处理厂的化学需氧量COD、氨氮、pH值、流量、浊度等,烟气监测主要针对于电厂和化工厂的二氧化硫、一氧化氮和氧气的含量控制。对于碳信用评价业务来说,主要考量企业环保的资质类型和资质等级,环保数据集表示如下:
环评等级}
特征空间构建是将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能的过程,具体包括特征构造和特征处理。
构造碳信用评价业务深度特征构造,深度特征构造主要是基于碳信用评价的数据属性采用深度特征生成算法进行更深入数据特征挖掘,在深度特征挖掘过程中计算属性信息熵衡量属性重要度,防止不重要特征参与深度特征合成。
信息熵采用如下公式计算得到:
属性重要度采用如下公式计算得到:
属性重要度的取值范围为,其值越小预示着属性越重要。若属性熵值
越大,其与最大离散熵之间的距离越接近,得到重要度的值越小,说明该属性越重要,反之,
则非重要。最大离散熵是属性不确定性最大的评价指标,这类属性价值是很大的,预示着这
类属性的重要程度极高。根据属性熵与最大离散熵之间的距离可以确定属性的重要程度大
小,若它们之间的距离越接近,则预示着该属性越重要,反之越不重要。可以设置属性重要
度阈值,低于阈值的属性认定为不重要属性,筛选出不重要属性。
在深度特征挖掘过程中,对计算特征所采用方法的复合数量进行限制,将特征深度阈值设置为2,避免深度特征生成算法面临的特征庞大和冗余问题。在能源数据特征挖掘中,深度特征生成算法通过属性重要度计算获取能耗品种、能耗值、碳排放权、生产总值等优选属性,然后将电力、天然气、煤气、原煤、汽油、柴油等多种类能源数据表中的能耗数据通过分组统计、线性组合、数据运算等聚合操作生成综合能耗值、月均能耗值、绿色能耗占比等一系列能源消耗特征,同时深度关联生产总值等能耗企业经济数据表通过聚合操作生成单位能耗生产值、绿色能耗生产值占比等能源经济特征。在金融数据特征挖掘中,客户贷款信息表格中每个客户可能会有涉及多类贷款业务的多项贷款,深度特征生成算法使用一对多的关联来对观测值分组然后计算统计量,具体实施中通过关联聚合计算客户的多项贷款情况,获取每个客户贷款的平均值、最大值和最小值等统计量。
特征处理主要包括了特征增强、特征转换、特征降维、特征选择和特征标准化等步骤,特征增强通过对数据审查和校验进行格式内容清洗、逻辑错误清洗、异常值清洗和缺失值清洗等操作,实现数据一致性。特征转换包括了采用数据手段对特征通过实施对数变换、指数变换等操作实现样本分布的优化,也包括了对离散数值的one-hot编码变换、虚拟编码变换和效果编码变换,由于虚拟编码没有冗余且具有可解释性,本发明对能耗数据中的能耗品种、采集类型和环保数据中的环境信用等级等离散类别数据采用虚拟编码变换。特征降维采用PCA算法将特征维度从一个维度空间映射到另一个维度空间,特征数量不改变,在映射的过程中特征值会相应的变化,有效解决特征矩阵过大导致计算量大、训练时间过长的问题。特征选择采用Filter方法在不显著降低分类精度、不影响分类分布以及特征子集应具有稳定、适应性强等条件下,从特征空间中选取最优特征子集,提高学习算法的运行时间,增加模型的可解释性。特征标准化中采用标准化缩放方法进行特征归一化处理,缩小能耗值、能耗系数、贷款额度、贷款利率等不同种类数据量级间的巨大差距,统一数据尺度,使特征值适应对输入特征尺度重要的联邦模型。
根据碳信用评价协同需求,构建三方联邦模型,进行逻辑回归子模型拆分,采用同态加密算法和通信状态动态调整的高效协同机制,构建能源、金融和环保三方安全高效协同的联邦逻辑回归模型。
逻辑回归将联邦模型产生的预测值通过激活函数映射到0~1之间,激活函数如下:
得到联合目标函数为:
由于同态加密只能计算多项式函数,故使用泰勒公式在0点展开,则联合目标函数近似模拟为:
因此,对第一参与节点、第二参与节点和第三参与节点三方来说,其本地子模型参数的梯度即为:
在纵向联邦学习的计算中,安全计算出梯度信息,寻找到目标函数的收敛值即完成了模型的训练。Paillier同态加密满足密文的加法与数乘,三方的加密交互流程如下:
(1)三方分别生成同态加密的公私钥对,并将公钥发给其他两方。
同时并计算本地梯度
(17)重复上述步骤(1)-(16),直至模型收敛。
通信状态动态调整的公式如下:
网络时延动态变化是一热高低起伏的过程,当网络速度很快,时延变小的情况下,
时延的变化是负值,这时节点本地优化次数是下降趋势,即梯度交互的频次获得
相应的提升;当网络速度缓慢的情况下,时延的变化是正值,这时节点本地优化次
数是上升趋势,即梯度交互的频次获得相应的降低。网络通信效率影响的是模型训练的速
度,梯度交互频次影响的模型训练的精度,基于网络通信状态的梯度交互频次动态调整能
够在模型训练过程中兼顾模型训练速度和准确度的平衡。通过实时监控梯度交互的网络通
信时延,动态调整联邦节点本地的优化次数,可提升联邦通信的效率。
各个参与节点的样本数据集中每一类对应的样本的个数不同,而且差别较大,即,存在样本不均衡问题,这样的不均衡样本往往使机器学习算法的表现变得比较差。在样本不均衡的情况模型的准确率指标就失去了意义,因为如果模型在训练过程中追求最大的准确率作为指标,当模型将小部分的样本分到大样本里面,最终也能能达到大样本的比例样的准确率。电力数据和金融数据中具有较明显的数据不均衡特点,即正常数据远大于异常数据,负样本状态数据较少。目前常用的样本不均衡优化的方法有抽样、权重调整、核函数修正、模型修正和少数类合成过采样技术,其中抽样方法容易丢失数据信息或者导致较少样本共线性,权重调整方法无法控制合适的权重比需要多次尝试,核函数修正方法核函数调整代价高并且使用场景局限,模型修正方法由于实际规律比较难发现实现难度较高。因此本发明采用少数类合成过采样技术SMOTE对少数类数据集进行优化,避免碳信用评价数据集在分类模型上产生过拟合问题,高效地缓解少数类样本不平衡的问题,具体过程如下:
(2)利用采样最邻近算法,计算出每个少数类样本的K个近邻,如下式:
(3)从K个近邻中随机挑选N个样本进行随机线性插值,构造新的少数类样本,如下式:
(4)将合成的新样本放入原始少数类样本集,形成新的少数类样本集合如下:
少数类合成过采样技术SMOTE考虑到少数类样本的特征向量与其最近邻的差值,
将这个差乘以0和1之间的一个随机数,并将其加到考虑的特征向量中。从几何上看,该算法
沿着两个特定样本特征之间的直线上选择了一个随机点,这种随机选择少数类样本点的方
法能够有效使少数类样本的决策区域变得更加泛化,其具体操作是在少数类样本及其邻居
少数类样本之间在高维空间中的连线上,随机取一个新的少数类样本,然后将放进
之前的少数类样本集合中,就得到了一个接近平衡状态的少数类样本数据集。
在得到联邦模型后,需要对模型进行评估,在模型评估过程中,由于每个指标只能反映模型的一个方面的特点,因此不同模型在不同应用场景需要使用针对性的指标进行评估,合理地运用评估指标组合,可以实现模型对业务场景的精准分析。常见的模型评估指标包括准确度Accuracy、精确率Precision、真阳性率TPR(即召回率Recall)、假阳性率FPR、P-R曲线、F1-Score、ROC曲线等指标。准确度可依反映模型整体上的分类准确程度,但是无法在细节上区分正负样本的具体识别情况。精确率和真阳性率(召回率)反映的是正样本识别的细节情况,假阳性率反映的是负样本识别的细节情况。上述指标中,由于精确率和真阳性率(召回率)是一对即矛盾又统一的两个指标,为了提高精确率,模型需要在更有把握时才认定为正样本,但此时却会因为保守而漏掉很正样本,降低真阳性率(召回率),因此P-R曲线、F1-Score是通过平衡精准率和真阳性率(召回率)综合反映模型预测性能的指标。ROC曲线则是综合考量真阳性率(召回率)和假阳性率反映模型性能的指标。
在碳信用评价业务中,金融风险控制是业务的重要核心目标之一,风控密切关系着金融企业的安危问题,因为在电力、金融、医学等领域分类模型把负例错误分类为正例比把正例错误分类为负例的代价要高得多,因此风控是碳信用评价预测模型的重要评估因素。碳信用评价风控的关键在于对用户资格的严格审查,防止对不合格用户的审批通过,对应到碳信用评价预测模型评估中,就是假阳性率指标,因此本发明将假阳性率FPR作为模型性能的重要评估指标。除了风控,碳信用评价预测模型的另外一个重要评估因素是符合碳信用评价用户的挖掘,对应到碳信用评价预测模型评估中,就是真阳性率(召回率)指标,因此本发明将真阳性率(召回率)指标作为模型性能的重要评估指标,同时将综合反映真阳性率(召回率)和假阳性率指标的ROC曲线也作为模型性能的评估指标。此外,出于模型性能的多维度全面评估需求,将准确度和精确度作为碳信用评价预测模型的辅助评估指标,同时鉴于P-R曲线在正负样本发生变化时会随之发生剧烈的变化,选择将F1-Score作为模型的辅助评估指标。
对于碳信用评价业务来讲,上述评估指标的业务含义和计算公式如下:
(1)假阳性率的含义是实际不符合碳信用评价资格的用户中被误审批通过的比例,它反映了错误审批的程度,其计算公式如下:
(2)真阳性率(召回率)的含义是实际符合碳信用评价资格的用户中被正确审批通过的比例,它反映了实际有碳信用评价资格用户的识别能力,其计算公式如下:
(3)准确率的含义是所有碳信用评价申请用户中正确审批的比例,其计算公式如下:
(4)精准度的含义是审批通过的用户中实际拥有碳信用评价资格的用户比例,其计算公式如下:
(5)F1-Score是精准度和真阳性率(召回率)的调和平均值,其计算公式如下:
在上述公式中,TP(True Positives)表示实际为正例且被分类器判定为正例的样本数,FP(False Positives)表示实际为负例且被分类器判定为正例的样本数,FN(FalseNegatives)表示实际为正例但被分类器判定为负例的样本数,TN(True Negatives)表示实际为负例且被分类器判定为负例的样本数。
在模型优化过程中,需要运用算法调参、特征组合和迭代更新等方式进行模型的优化与重构。模型参数优化旨在寻找使得机器学习算法在验证数据集上表现性能最佳的参数,参数的设置对于模型性能有着直接影响。根据碳信用评价预测模型业务特点,选取有效性评估和优化方法,将模型评价结果用于模型的优化与重构,可以持续提升模型的精度。
在参数调优上,依靠人工试错法手动对超参数进行调参优化,通过经验判断超参数如何进行设置能够获得更高的模型准确性,但这种方法依赖大量的经验,并且比较耗时。目前常见的自动化超参数优化方法有网格化寻优、随机寻优、贝叶斯优化方法、基于梯度的优化方法和进化寻优。由于贝叶斯优化方法会限制模型训练评估的计算次数,基于梯度的优化方法具有非凸性质的缺点,进化算法由于太耗时并且计算资源占用很大经常被用来寻找其他技术不易求解的近似解,目前用的比较多的是网络化寻优和随机寻优。鉴于随机寻优的快速性,本发明中碳信用评价业务联邦模型采用随机寻优方法,通过随机搜索在超参数网格的基础上选择随机的组合来进行模型训练,随机寻优可以控制组合的数量,基于时间和计算资源的情况,选择合理的计算次数,实现更快速准确地确定某些重要的超参数的最佳值。
碳信用评价业务联邦模型属于纵向联邦学习,能源数据中心、金融数据中心和环保数据中心的数据样本空间有较大重叠,但特征空间不同,即各数据方可以使用相同样本的所有特征来训练模型,即用相同用户的能源数据、金融数据和环保数据等不同维度特征进行联合训练。在此情形下,各数据方分别拥有部分样本数据和自身特征空间相关的模型,因而模型的训练和预测服务需要各方线上及时授权才能完成,针对这个问题,通过智能合约约束各个联邦子模型的访问,可以从时间维度和空间维度设置访问控制策略。采用智能合约实现对节点资源的自动化、可信的访问控制,无需安全管理员人为参与,基于资源拥有者发布的策略进行访问控制,判决过程公开透明。
模型训练过程可能存在恶意节点上传虚假参数或低质量模型,影响聚合过程与模型质量,本发明利用区块链记录模型训练过程的中间参数作为审计追溯证据,并激励协作节点进行模型参数验证,惩罚上传虚假参数或低质量模型的参与节点,以约束节点自利性,提高模型聚合的质量。
联邦模型训练完成之后,每个节点的自有模型都会对应很多模型使用者即模型用户,需要解决模型和用户之前的访问控制问题,本发明通过智能合约实现模型的发布和访问控制,在完成模型发布和使用的同时,实现模型使用的链上审计,支撑基于模型使用记录的模型使用权有偿兑现业务。
通过智能合约对节点样本和子模型访问进行权限控制的主要方式包括两种,分别为基于时间维度的访问权限控制以及基于空间维度的访问权限控制。基于时间维度的访问权限控制是指通过智能合约约束了资源的生命周期,以及在智能合约中规定了该资源的可访问时间区间,在时间区间内时数据资源是对外开放的,而超出规定时间区间时数据资源对外不可见,通过在智能合约中部署按照时间进行触发的事件,数据资源的时效性得到了有效保障。基于空间维度的访问权限控制则是通过在智能合约约束用户的访问范围,当智能合约收到私钥签名的查询报文时,检验其访问样本或子模型对象是否在访问空间范围内,根据验证结果为其返回访问令牌或拒绝信息。
一个使用智能合约实施碳信用评价节点样本和子模型授权的场景主要包括以下
流程:当节点向节点请求使用时,节点首先查验节点身
份,然后智能合约根据访问约束条件(例如样本或子模型授权范围、时效、次数等),查验节
点访问合法性,返回授权令牌或拒绝消息。节点获取的授权令牌后,通
过联邦学习平台与节点开展安全协同训练,协同过程中的梯度信息、参数信息
经过链上共识后存入区块中。训练结束后,节点发布模型调用接口通过智能合约在链
上发布模型API信息。
具体实施流程如下:
(4)协同过程上链。联邦学习的每一轮计算过程中交互的梯度信息,通过链上共识节点的共识后,存入区块中,区块上链时,通过计算本区块的数据内容弄获得当前区块的哈希值,计算方法为:
为了便于存储,将区块中的所有交易组织成一棵默克尔树,并在区块头中存储默克尔树根的哈希值。区块生成者利用自己的私钥对当前区块的哈希值签名,防止区块在网络传播过程中被篡改,接收到新区块的节点可以通过该签名认证区块生成者的生成以及区块哈希值是否被篡改。
(5)全局模型链上发布。模型训练完成后,模型入参参数和出参参数以API接口的形式通过智能合约在链上发布,并设置权限策略对API用户进行访问控制,API请求信息格式如下:
在联邦学习协同框架引入区块链技术,通过区块链智能合约实现协作各方样本的授权管理,通过训练参数上链实现碳信用评价模型训练过程的审计追溯,以及,通过联邦全局模型链上发布实现了碳信用评价模型的使用审计。
如图9所示,此为基于碳信用评价的联邦平台装置的结构示意图,该装置包括至少一个通信服务组件用于远程联邦学习网络通信和协议交互,至少一个代理组件用于本地用户的访问操作任务分发,至少一个建模工作台用于多方安全计算和联邦学习等功能的可视化操作,至少一个机器学习服务组件提供多种多方安全计算和联邦学习算法,至少一个API服务组件用于多方安全计算和联邦学习模型发布为用户提供即时的数据服务,至少一个存储服务组件,用于存储多方安全计算和联邦学习过程数据和模型参数,至少一个上链服务组件,用于本地样本/子模型授权策略上链和全局模型链上发布。
其中通信服务组件包括gRPC、HTTP和网关服务,为了能尽可能少地向对方暴露服务信息,以及简便性调用训练服务,需要引入网关服务实现服务路由,对外暴露gRPC接口以及HTTP接口,外部系统的所有请求都将委托给网关服务进行请求转发。代理组件可以采用Nginx实现,负责用户任务调度,负责解析配置参数,以及进行整个训练任务的调度,可以利用设计模式中的责任链模式,按照指定的组件运行顺序,将一个训练任务转化成一条责任链,并提交给任务线程池去执行。建模工作台可以通过可视化的界面,灵活调用组配建模组件,设计建模流程。API服务组件可以通过SDK形式发布API调用接口,外部系统可以通过服务发现获取接口地址加以调用,开展预测任务。存储服务组件可以采用HDFS、Mysql、Redis及其他方式实现,通过将每次预测的结果存储起来以满足业务的需求,同时也需要将模型存储起来,不需要每次发起推理请求时都从分布式存储系统中加载模型,从而保证安全也提高了效率。
本方案结合绿色金融政策要求和碳信用评价业务逻辑构建碳信用评价数据空间,实现了碳信用评价业务决策要素的精准定位。通过在深度特征挖掘过程中计算属性信息熵衡量属性重要度,采用属性优选的深度特征构造方法,防止不重要特征参与深度特征合成,避免了深度特征生成算法面临的特征庞大和冗余问题。设计三方协同的联邦逻辑回归模型,在模型交互过程中引入同态加密隐私机制,利用加法和乘法同态加密保证在交互中不能获取对方的敏感信息,同时构建了基于通信状态变化对节点迭代次数进行动态调整的策略方法,通过节点迭代次数实现交互频次的增减控制,提升模型训练效率。结合碳信用评价风控需求特点选取最佳评估指标,并设置满足业务需求的指标阈值,能够实现碳信用评价的最优预测。设计节点样本/子模型链上智能合约授权机制,能够基于发布的策略实现对节点资源的自动化、可信的访问控制。采用的模型交互过程链上存证技术,利用区块链记录模型训练过程的中间参数作为审计追溯证据,可以约束节点自利性,提高模型聚合的质量。通过智能合约进行模型的发布和访问控制,可以实现模型使用的链上使用和审计,同时也可以支撑基于模型使用记录进一步开展的模型有偿使用业务。
请参阅图10,图10是本发明可选实施例提供的一种电子设备的结构示意图,如图10所示,该电子设备可以包括:至少一个处理器601,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口603,存储器604,至少一个通信总线602。其中,通信总线602用于实现这些组件之间的连接通信。其中,通信接口603可以包括显示屏(Display)、键盘(Keyboard),可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图9所描述的装置,存储器604中存储应用程序,且处理器601调用存储器604中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线602可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器604可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器604还可以包括上述种类的存储器的组合。
其中,处理器601可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic, 缩写:GAL)或其任意组合。
可选地,存储器604还用于存储程序指令。处理器601可以调用程序指令,实现如本申请实施例中所示的适用碳信用评价的联邦学习方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的联邦学习方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (11)
1.一种适用碳信用评价的联邦学习方法,其特征在于,应用于目标参与节点,所述方法包括:
获取所述目标参与节点的目标联邦子模型,所述目标联邦子模型是由联邦模型拆分后得到的,所述联邦模型包括至少3个联邦子模型,所述目标联邦子模型包括模型参数以及所述目标参与节点的目标特征;
获取当前网络时延以及目标特征的预设优化次数;
基于所述当前网络时延与所述预设优化次数对应的预设网络时延的差异,确定当前优化次数;
根据当前优化次数对所述目标特征进行本地优化;
将所述目标特征的优化结果与其他参与节点进行加密交互,以对模型参数进行优化确定所述目标联邦子模型的目标模型参数。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标特征的优化结果与其他参与节点进行加密交互,包括:
基于同态加密算法计算公钥和私钥,并将所述公钥发送给其他参与节点;
计算目标联邦子模型对应的模型参数与目标特征的乘积,以及模型参数与目标特征的乘积的平方项,并将所述乘积以及乘积的平方项发送给其他参与节点;
将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点。
4.根据权利要求3所述的方法,其特征在于,在所述将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点之前,还包括:
接收其他参与节点采用所述指定参与节点的公钥加密后的模型参数与对应目标特征的乘积,以及模型参数与对应目标特征的乘积的平方项;
基于所述接收的其他参与节点发送的乘积以及乘积的平方项,确定密文目标函数;
基于所述密文目标函数计算所述目标参与节点的密文梯度,所述密文梯度采用指定参与节点的公钥加密,所述密文目标函数采用如下公式计算得到:
所述目标参与节点的密文梯度为:
5.根据权利要求4所述的方法,其特征在于,在所述将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点之后,还包括:
接收所述其他参与节点对所述目标参与节点的密文梯度解密后的梯度结果,以确定所述目标联邦子模型的目标模型参数。
6.根据权利要求1所述的方法,其特征在于,在获取所述目标参与节点的目标联邦子模型之前,所述方法还包括:
从数据集中提取数据特征,作为数据原始特征;
计算所述数据特征的信息熵,并基于所述信息熵计算数据特征的属性重要度,以实现对所述数据特征的优化,得到数据深度特征;
对所述数据原始特征和所述数据深度特征进行融合,得到所述目标参与节点的目标特征。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
向所述其他参与节点发出加密后的所述联邦子模型授权请求;
基于智能合约验证所述其他参与节点并判断是否授权,基于判断结果向所述其他参与节点发送授权令牌;
接收所述其他参与节点的授权令牌,以完成联邦子模型的上链授权。
9.一种适用碳信用评价的联邦学习系统,其特征在于,包括:
至少三个参与节点,所述参与节点用于执行权利要求1-8中任一项所述的适用碳信用评价的联邦学习方法。
10.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-8中任一项所述的适用碳信用评价的联邦学习方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-8中任一项所述的适用碳信用评价的联邦学习方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210733412.0A CN114818011B (zh) | 2022-06-27 | 2022-06-27 | 一种适用碳信用评价的联邦学习方法、系统及电子设备 |
PCT/CN2023/113983 WO2024002389A1 (zh) | 2022-06-27 | 2023-08-21 | 一种适用碳信用评价的联邦学习方法、系统、电子设备及计算机可读存储介质 |
US18/681,946 US20240281745A1 (en) | 2022-06-27 | 2023-08-21 | Federated learning method and system suitable for carbon credit evaluation, electronic device, and computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210733412.0A CN114818011B (zh) | 2022-06-27 | 2022-06-27 | 一种适用碳信用评价的联邦学习方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114818011A true CN114818011A (zh) | 2022-07-29 |
CN114818011B CN114818011B (zh) | 2022-09-27 |
Family
ID=82522610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210733412.0A Active CN114818011B (zh) | 2022-06-27 | 2022-06-27 | 一种适用碳信用评价的联邦学习方法、系统及电子设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240281745A1 (zh) |
CN (1) | CN114818011B (zh) |
WO (1) | WO2024002389A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187151A (zh) * | 2022-09-13 | 2022-10-14 | 北京锘崴信息科技有限公司 | 基于联邦学习的排放可信分析方法及金融信息评价方法 |
CN115185543A (zh) * | 2022-09-09 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 模型部署方法、打包方法、装置、设备及存储介质 |
CN116341684A (zh) * | 2023-05-26 | 2023-06-27 | 蓝象智联(杭州)科技有限公司 | 提高模型泛化性能的正则惩罚施加方法、装置及存储介质 |
WO2024002389A1 (zh) * | 2022-06-27 | 2024-01-04 | 国网智能电网研究院有限公司 | 一种适用碳信用评价的联邦学习方法、系统、电子设备及计算机可读存储介质 |
CN117371025A (zh) * | 2023-09-18 | 2024-01-09 | 泉城省实验室 | 一种去中心化机器学习模型训练方法及系统 |
WO2024062400A1 (en) * | 2022-09-21 | 2024-03-28 | Genxt Ltd | Mediation systems and methods for a federated confidential computing environment |
CN117786354A (zh) * | 2023-12-26 | 2024-03-29 | 国网上海市电力公司 | 基于联邦学习的电力数据风控方法、设备和介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117938355B (zh) * | 2024-03-21 | 2024-06-25 | 中国信息通信研究院 | 一种基于区块链的联合预测方法、介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001502A (zh) * | 2020-08-24 | 2020-11-27 | 平安科技(深圳)有限公司 | 高延时网络环境鲁棒的联邦学习训练方法及装置 |
CN112994981A (zh) * | 2021-03-03 | 2021-06-18 | 上海明略人工智能(集团)有限公司 | 时延数据的调整方法和装置、电子设备和存储介质 |
CN113992694A (zh) * | 2021-10-01 | 2022-01-28 | 浙商银行股份有限公司 | 一种基于联邦学习的区块链节点集群监控方法及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668128B (zh) * | 2020-12-21 | 2024-05-28 | 国网辽宁省电力有限公司物资分公司 | 联邦学习系统中终端设备节点的选择方法及装置 |
CN114818011B (zh) * | 2022-06-27 | 2022-09-27 | 国网智能电网研究院有限公司 | 一种适用碳信用评价的联邦学习方法、系统及电子设备 |
-
2022
- 2022-06-27 CN CN202210733412.0A patent/CN114818011B/zh active Active
-
2023
- 2023-08-21 WO PCT/CN2023/113983 patent/WO2024002389A1/zh unknown
- 2023-08-21 US US18/681,946 patent/US20240281745A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001502A (zh) * | 2020-08-24 | 2020-11-27 | 平安科技(深圳)有限公司 | 高延时网络环境鲁棒的联邦学习训练方法及装置 |
WO2021155671A1 (zh) * | 2020-08-24 | 2021-08-12 | 平安科技(深圳)有限公司 | 高延时网络环境鲁棒的联邦学习训练方法、装置、计算机设备及存储介质 |
CN112994981A (zh) * | 2021-03-03 | 2021-06-18 | 上海明略人工智能(集团)有限公司 | 时延数据的调整方法和装置、电子设备和存储介质 |
CN113992694A (zh) * | 2021-10-01 | 2022-01-28 | 浙商银行股份有限公司 | 一种基于联邦学习的区块链节点集群监控方法及设备 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024002389A1 (zh) * | 2022-06-27 | 2024-01-04 | 国网智能电网研究院有限公司 | 一种适用碳信用评价的联邦学习方法、系统、电子设备及计算机可读存储介质 |
CN115185543A (zh) * | 2022-09-09 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 模型部署方法、打包方法、装置、设备及存储介质 |
CN115185543B (zh) * | 2022-09-09 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 模型部署方法、打包方法、装置、设备及存储介质 |
CN115187151A (zh) * | 2022-09-13 | 2022-10-14 | 北京锘崴信息科技有限公司 | 基于联邦学习的排放可信分析方法及金融信息评价方法 |
WO2024062400A1 (en) * | 2022-09-21 | 2024-03-28 | Genxt Ltd | Mediation systems and methods for a federated confidential computing environment |
CN116341684A (zh) * | 2023-05-26 | 2023-06-27 | 蓝象智联(杭州)科技有限公司 | 提高模型泛化性能的正则惩罚施加方法、装置及存储介质 |
CN116341684B (zh) * | 2023-05-26 | 2023-08-04 | 蓝象智联(杭州)科技有限公司 | 提高模型泛化性能的正则惩罚施加方法、装置及存储介质 |
CN117371025A (zh) * | 2023-09-18 | 2024-01-09 | 泉城省实验室 | 一种去中心化机器学习模型训练方法及系统 |
CN117371025B (zh) * | 2023-09-18 | 2024-04-16 | 泉城省实验室 | 一种去中心化机器学习模型训练方法及系统 |
CN117786354A (zh) * | 2023-12-26 | 2024-03-29 | 国网上海市电力公司 | 基于联邦学习的电力数据风控方法、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
US20240281745A1 (en) | 2024-08-22 |
CN114818011B (zh) | 2022-09-27 |
WO2024002389A1 (zh) | 2024-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114818011B (zh) | 一种适用碳信用评价的联邦学习方法、系统及电子设备 | |
Zhang et al. | A survey on federated learning | |
US20220230071A1 (en) | Method and device for constructing decision tree | |
Lei et al. | A renewable energy microgrids trading management platform based on permissioned blockchain | |
CN108681966A (zh) | 一种基于区块链的信息监管方法及装置 | |
CN111459461A (zh) | 基于物联网和区块链技术的用能权核定及交易系统和方法 | |
Yang et al. | An explainable federated learning and blockchain-based secure credit modeling method | |
CN112380572A (zh) | 一种多方数据协同场景下的隐私保护量化评估方法和系统 | |
CN111091467A (zh) | 基于区块链与深度学习的股权交易管理计算机仿真系统 | |
CN115563859A (zh) | 一种基于分层联邦学习的电力负荷预测方法、装置及介质 | |
CN118132650A (zh) | 一种基于食品的检验数据共享方法及系统 | |
Shao et al. | Research on accounting information security management based on blockchain | |
CN116664140A (zh) | 一种基于区块链的碳排放权交易方法 | |
Zhao et al. | Privacy-preserving electricity theft detection based on blockchain | |
Jovanovic et al. | Robust integration of blockchain and explainable federated learning for automated credit scoring | |
Tang et al. | A Survey on Blockchain-Based Federated Learning: Categorization, Application and Analysis. | |
Mao et al. | Full Data‐Processing Power Load Forecasting Based on Vertical Federated Learning | |
Marx et al. | WW-FL: Secure and Private Large-Scale Federated Learning | |
Yang | Development and supervision of financial technology based on blockchain | |
RAO et al. | ENERGY EXCHANGE PROCESS FOR SMART GRID BASED ON INTEGRATING BLOCKCHAIN WITH GCN-LSTM | |
US11861598B2 (en) | Apparatuses and methods for calculating foreign exchange advantages | |
Джумагалиева et al. | USING ARTIFICIAL INTELLIGENCE TO ANALYZE AND PREDICT ELECTORAL ACTIVITY IN BLOCKCHAIN VOTING SYSTEMS | |
US20230162203A1 (en) | Emissions records ledger for correlated emission analytics | |
CN118551414B (zh) | 基于大数据的档案管理方法及系统 | |
Fu et al. | A Blockchain-Based Federated Random Forest Approach for Power-Related Data Collaborative Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |