CN116361398A

CN116361398A - 一种用户信用评估方法、联邦学习系统、装置和设备

Info

Publication number: CN116361398A
Application number: CN202310147860.7A
Authority: CN
Inventors: 李翔; 刘坤; 王强; 姜山; 刘艺; 杨国利; 秦伟; 郑奇斌
Original assignee: Beijing Big Data Advanced Technology Research Institute
Current assignee: Beijing Big Data Advanced Technology Research Institute
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-06-30
Anticipated expiration: 2043-02-21
Also published as: CN116361398B

Abstract

本发明提供了一种用户信用评估方法、联邦学习系统、装置和设备，应用于联邦学习系统，该系统包括联邦服务器和多个联邦参与者，包括：联邦服务器根据联邦学习目标任务，编制联邦学习数据需求，联邦学习数据需求中的每个局部数据特征需求的需求数据格式为联邦学习目标任务规定的联邦学习所用的数据结构；多个联邦参与者根据接收到的局部数据特征需求，生成对应的OBDA映射文件，根据该OBDA映射文件，得到符合需求数据格式的局部数据特征；多个联邦参与者和联邦服务器利用局部数据特征，基于全局联邦学习模型，进行迭代训练，得到目标联邦学习模型；将待评估用户的数据输入任一的联邦参与者中的目标联邦学习模型，得到对该用户的信用评估结果。

Description

一种用户信用评估方法、联邦学习系统、装置和设备

技术领域

本发明涉及数据处理技术领域，特别是一种用户信用评估方法、联邦学习系统、装置和设备。

背景技术

数据孤岛问题是指数据在不同部门相互独立存储，独立维护，彼此间相互孤立，形成了物理上的孤岛。这是因为不同机构拥有不同的数据存储、数据结构或数据定义，虽然其数据语义空间存在很大程度的重叠，这种异构性却为数据的互联、互通、互操作带来了极大的困难。

在现有技术中，一般可以利用联邦学习方法实现同构的分布式数据源的智能学习，但在上述异构孤岛数据的数据结构或形式并不符合联邦学习训练的要求，很难为智能算法提供丰富而充足的训练数据。示例性地，多个服务方存储有不同结构的用户信用数据，出于保护用户隐私的需要，各个服务方的数据相互独立，在此条件下，由于用户信用数据的异构性，难以直接利用联邦学习方法，从而根据多方提供的用户信用数据，实现用户信用评估。因此，有必要开发一种用户信用评估方法、联邦学习系统、装置和设备，以解决上述数据孤岛问题。

发明内容

鉴于上述问题，本发明实施例提供了一种用户信用评估方法、联邦学习系统、装置和设备，以便克服上述问题或者至少部分地解决上述问题。

本发明实施例的第一方面，提供了一种用户信用评估方法，包括：

一种用户信用评估方法，应用于联邦学习系统，所述联邦学习系统包括联邦服务器和多个联邦参与者，所述方法包括：

所述联邦服务器获取联邦学习目标任务；

所述联邦服务器根据所述联邦学习目标任务，编制联邦学习数据需求，所述联邦学习数据需求包括多个局部数据特征需求，每个所述局部数据特征需求包括：联邦参与者信息，需求数据格式和需求数据语义，所述需求数据格式为所述联邦学习目标任务规定的联邦学习所用的数据结构；

所述联邦服务器将所述多个局部数据特征需求，发送至对应的所述联邦参与者；

所述多个联邦参与者根据接收到的所述局部数据特征需求，生成对应的OBDA映射文件；所述OBDA映射文件表征从所述联邦参与者自身的关系数据库表中提取原始数据特征的提取方式，以及将该原始数据特征组织并转换为局部数据特征的转换方式；所述原始数据特征的数据格式不同于所述需求数据格式；

所述多个联邦参与者根据自身生成的所述OBDA映射文件，得到符合所述需求数据格式的局部数据特征；

所述联邦服务器确定全局联邦学习模型；

所述多个联邦参与者和所述联邦服务器利用所述局部数据特征，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型；

将待评估用户的数据输入任一的所述联邦参与者中的所述目标联邦学习模型，得到对该用户的信用评估结果。

可选地，所述联邦参与者根据接收到的所述局部数据特征需求，生成对应的OBDA映射文件，包括：

根据所述局部数据特征需求中的所述需求数据格式和所述需求数据语义，结合所述联邦参与者自身拥有的关系数据库表集合中的数据源的数据结构和语义内容，生成对应的所述OBDA映射文件。

可选地，所述OBDA映射文件表示为如下公式：

Mapping_j＝{Relations_j,SQL_j,x_j}

其中，Mapping_j表示联邦参与者j的OBDA映射文件；x_j为该映射可生成的需求数据格式的局部数据特征；Relations_j表示在所述联邦参与者j中的，关于所述局部数据特征的所述关系数据库表集合；SQL_j为完成映射所对应的SQL查询语句。

可选地，所述联邦学习数据需求还包括一个或多个局部标签数据需求，所述局部标签数据需求包括：标签联邦参与者信息、标签需求数据格式、融合函数、标签语义内容；

所述方法还包括：

所述联邦服务器将所述局部标签数据需求，发送至对应的所述联邦参与者；

所述联邦参与者根据接收到的所述局部标签数据需求，生成对应的标签OBDA映射文件；

所述联邦参与者根据所述标签OBDA映射文件，得到标签数据项，将其发送至所述联邦服务器。

可选地，所述局部标签数据需求表示为：

Req(y_j)＝[S_yj,R_yj,f_y,D_yj,D_y]

其中，S_yj为标签联邦参与者信息，表示影响该标签数据项的联邦参与者；R_yj为来自S_yj联邦参与者j的标签数据项e_yj的需求数据格式和范围；f_y为所述融合函数，表示将所有标签数据项e_yj融合得到标签y的公式，所述融合函数由具体的业务领域规则确定；D_yj为所述标签数据项e_yj的语义内容，D_y表示最终组合得到的标签的语义内容；

所述联邦参与者根据接收到的所述局部标签数据需求，生成对应的标签OBDA映射文件，表示为：

其中，Mapping_j ^y表示联邦参与者j的标签OBDA映射文件；e_yj为该映射可生成的标签数据项；

为在联邦参与者j中的，关于的所述标签数据项e_yj的一个或多个关系数据库表集合，/>

为完成映射所对应的SQL查询语句。

可选地，所述联邦参与者和所述联邦服务器利用所述局部数据特征，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型，包括：

所述联邦服务器根据接收到的所述标签数据项，根据所述融合函数，得到标签数据；

所述联邦参与者和所述联邦服务器利用所述局部数据特征和所述标签数据，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型。

可选地，所述初级联邦学习模型包括各个所述联邦参与者中的嵌入函数，所述联邦参与者和所述联邦服务器利用所述局部数据特征和所述标签数据，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型，包括如下步骤：

步骤1，所述联邦参与者和所述联邦服务器执行初始化操作；

步骤2，在第t轮训练中随机选择一个训练样本数据x_n，各个所述联邦参与者确定所述训练样本数据x_n对应的所述局部数据特征x_n,j，基于第t轮的该联邦参与者自身的嵌入函数ω_j(x_n,j；θ_j)，得到局部函数值ω_n,j；

步骤3，所述联邦参与者将在第t轮训练中得到的所述局部函数值ω_n,j发送至所述联邦服务器；

步骤4，所述联邦服务器根据各个所述联邦参与者发送的所述局部函数值ω_n,j，以及所述标签数据y_n，基于第t轮训练中的所述初级联邦学习模型，计算得到各个所述联邦参与者的第t+1轮的梯度v_j，和所述初级联邦学习模型的更新梯度v₀；

步骤5，所述联邦服务器根据所述更新梯度v₀，对所述初级联邦学习模型的模型参数θ₀进行更新，得到第t+1轮训练的初级联邦学习模型；

步骤6，所述联邦服务器将所述第t+1轮的梯度v_j发送至对应的所述联邦参与者；

步骤7，所述联邦参与者利用所述第t+1轮的梯度v_j，更新自身的嵌入函数的参数θ_j，得到第t+1轮的嵌入函数；

步骤8，判断是否该学习过程是否收敛，若收敛则结束训练，若不收敛，则返回至步骤2进行第t+1轮训练，令t＝t+1。

本实施例第二方面提供了一种联邦学习系统，所述联邦学习系统包括联邦服务器和多个联邦参与者；

所述联邦服务器用于获取联邦学习目标任务；根据所述联邦学习目标任务，编制联邦学习数据需求，所述联邦学习数据需求包括多个局部数据特征需求，每个所述局部数据特征需求包括：联邦参与者信息，需求数据格式和需求数据语义，所述需求数据格式为所述联邦学习目标任务规定的联邦学习所用的数据结构；将所述多个局部数据特征需求，按照各自的所述联邦参与者信息发送至对应的所述联邦参与者；

所述联邦参与者用于根据接收到的所述局部数据特征需求，生成对应的OBDA映射文件；所述OBDA映射文件明确了如何从所述联邦参与者自身的关系数据库表中提取原始数据特征，以及如何将该原始数据特征组织并转化为局部数据特征；所述原始数据特征的数据格式不是所述需求数据格式；根据自身生成的所述OBDA映射文件，得到符合所述需求数据格式的局部数据特征；

所述联邦服务器还用于确定全局联邦学习模型；

所述联邦参与者和所述联邦服务器还用于利用所述局部数据特征，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型；

所述目标联邦学习模型部署于各个所述联邦参与者中，用于在接收到输入的待评估用户的数据后，输出对该用户的信用评估结果。

本实施例第三方面提供了一种用户信用评估装置，所述装置包括：

获取模块，用于获取联邦学习目标任务；

需求编制模块，用于根据所述联邦学习目标任务，编制联邦学习数据需求，所述联邦学习数据需求包括多个局部数据特征需求，每个所述局部数据特征需求包括：联邦参与者信息，需求数据格式和需求数据语义，所述需求数据格式为所述联邦学习目标任务规定的联邦学习所用的数据结构；

发送模块，用于将所述多个局部数据特征需求，发送至对应的联邦参与者；

映射文件生成模块，用于根据接收到的所述局部数据特征需求，生成对应的OBDA映射文件；所述OBDA映射文件表征从所述联邦参与者自身的关系数据库表中提取原始数据特征的提取方式，以及将该原始数据特征组织并转换为局部数据特征的转换方式；所述原始数据特征的数据格式不同于所述需求数据格式；

局部数据特征生成模块，用于根据自身生成的所述OBDA映射文件，得到符合所述需求数据格式的局部数据特征；

初始化模块，用于确定全局联邦学习模型；

训练模块，用于利用所述局部数据特征，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型；

评估模块，用于将待评估用户的数据输入任一的所述联邦参与者中的所述目标联邦学习模型，得到对该用户的信用评估结果。

可选地，所述映射文件生成模块，包括：

OBDA映射文件生成子模块，用于根据所述局部数据特征需求中的所述需求数据格式和所述需求数据语义，结合所述联邦参与者自身拥有的关系数据库表集合中的数据源的数据结构和语义内容，生成对应的所述OBDA映射文件。

可选地，所述OBDA映射文件表示为如下公式：

Mapping_j＝{Relations_j,SQL_j,x_j}

所述装置还包括：

局部标签数据需求发送模块，用于将所述局部标签数据需求，发送至对应的联邦参与者；

标签OBDA映射文件生成模块，用于根据接收到的所述局部标签数据需求，生成对应的标签OBDA映射文件；

标签OBDA映射文件发送模块，用于根据所述标签OBDA映射文件，得到标签数据项，将其发送至联邦服务器。

可选地，所述局部标签数据需求表示为：

Req(y_j)＝[S_yj,R_yj,f_y,D_yj,D_y]

其中，S_yj为标签联邦参与者信息，表示影响该标签数据项的联邦参与者；R_yj为来自S_yj联邦参与者j的标签数据项的需求数据格式和范围；f_y为所述融合函数，表示将所有标签数据项融合得到标签y的公式，所述融合函数由具体的业务领域规则确定；D_yj为所述标签数据项的语义内容，D_y表示最终组合得到的标签的语义内容；

所述标签OBDA映射文件生成模块，表示为：

为完成映射所对应的SQL查询语句。

可选地，训练模块，包括：

标签数据确定子模块，用于根据接收到的所述标签数据项，根据所述融合函数，得到标签数据；

训练子模块，用于利用所述局部数据特征和所述标签数据，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型。

可选地，所述初级联邦学习模型包括各个所述联邦参与者中的嵌入函数，所述训练模块，包括：

第一训练子模块，用于执行初始化操作；

第二训练子模块，用于在第t轮训练中随机选择一个训练样本数据x_n，确定所述训练样本数据x_n对应的所述局部数据特征x_n,j，基于第t轮的该联邦参与者自身的嵌入函数ω_j(x_n,j；θ_j)，得到局部函数值ω_n,j；

第三训练子模块，用于将在第t轮训练中得到的所述局部函数值ω_n,j发送至所述联邦服务器；

第四训练子模块，用于根据发送的所述局部函数值ω_n,j，以及所述标签数据y_n，基于第t轮训练中的所述初级联邦学习模型，计算得到各个所述联邦参与者的第t+1轮的梯度v_j，和所述初级联邦学习模型的更新梯度v₀；

第五训练子模块，用于根据所述更新梯度v₀，对所述初级联邦学习模型的模型参数θ₀进行更新，得到第t+1轮训练的初级联邦学习模型；

第六训练子模块，用于将所述第t+1轮的梯度v_j发送至对应的所述联邦参与者；

第七训练子模块，用于利用所述第t+1轮的梯度v_j，更新自身的嵌入函数的参数θ_j，得到第t+1轮的嵌入函数；

第八训练子模块，用于判断是否该学习过程是否收敛，若收敛则结束训练，若不收敛，则返回至步骤2进行第t+1轮训练，令t＝t+1。

本发明实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本发明第一方面所述的用户信用评估方法中的步骤。

本发明提供了一种用户信用评估方法、联邦学习系统、装置和设备，应用于联邦学习系统，该系统包括联邦服务器和多个联邦参与者，包括：联邦服务器根据联邦学习目标任务，编制联邦学习数据需求，联邦学习数据需求中的每个局部数据特征需求的需求数据格式为联邦学习目标任务规定的联邦学习所用的数据结构；多个联邦参与者根据接收到的局部数据特征需求，生成对应的OBDA映射文件，根据该OBDA映射文件，得到符合需求数据格式的局部数据特征；多个联邦参与者和联邦服务器利用局部数据特征，基于全局联邦学习模型，进行迭代训练，得到目标联邦学习模型；将待评估用户的数据输入任一的联邦参与者中的目标联邦学习模型，得到对该用户的信用评估结果。由此，本发明实施例通过编制联邦学习数据需求，在该需求中预先设置训练所需要的数据结构，从而使得参与方服务器能够根据该需求，利用OBDA映射方法，将存储的异构数据转换为特定数据结构的训练数据，再利用该训练数据实现对联邦学习模型的训练，从而得到需求的用户信用评估模型，解决了数据异构条件下的联邦学习问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种用户信用评估方法的步骤流程图；

图2是本发明实施例提供的一种联邦学习系统的结构示意图；

图3是本发明实施例提供的一种用户信用评估装置的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

首先，为了便于对本发明实施例的理解，对其中涉及的相关概念进行解释。

数据孤岛问题，数据孤岛在企业信息化中，还有很多类似的描述，如“数据的污染”等比较形象的说法，是指企业发展到一定阶段，出现多个事业部，每个事业部都有各自数据，事业部之间的数据往往都各自存储，各自定义。每个事业部的数据就像一个个孤岛一样无法(或者极其困难)和企业内部的其他数据进行连接互动。简单说就是数据间缺乏关联性，数据库彼此无法兼容。一般把数据孤岛分为物理性和逻辑性两种。物理性的数据孤岛指的是，数据在不同部门相互独立存储，独立维护，彼此间相互孤立，形成了物理上的孤岛。逻辑性的数据孤岛指的是，不同部门站在自己的角度对数据进行理解和定义，使得一些相同的数据被赋予了不同的含义，无形中加大了跨部门数据合作的沟通成本。

联邦学习方法，联邦学习(Federated Learning)是一种分布式机器学习技术，其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练，在不需要交换本地个体或样本数据的前提下，仅通过交换模型参数或中间结果的方式，构建基于虚拟融合数据下的全局模型，从而实现数据隐私保护和数据共享计算的平衡，即“数据可用不可见”、“数据不动模型动”的应用新范式。

如下，为本发明具体实施方案。

本发明实施例提供了一种用户信用评估方法，应用于联邦学习系统，所述联邦学习系统包括联邦服务器和多个联邦参与者，参照图1，图1为本发明实施例提供的一种用户信用评估方法的步骤流程图，如图1所示，所述方法包括：

步骤S101，所述联邦服务器获取联邦学习目标任务。

在本实施例中，该联邦学习目标任务表示本次联邦学习的需求信息，包括了负责本次联邦学习的联邦服务器的信息和其中涉及的联邦参与者的信息。该联邦服务器通过分析联邦学习目标任务，明确本次负责协调与学习的联邦服务器节点以及各个联邦服务器服务器，并对其进行编号，以便于后续信息交互。其中所述多个联邦参与者，分别作为数据孤岛存在，即联邦参与者之间不进行数据互通，且各自的数据库相互孤立，不能兼容，从而使得联邦参与者的数据不能直接一并作为训练数据使用。

步骤S102，所述联邦服务器根据所述联邦学习目标任务，编制联邦学习数据需求，所述联邦学习数据需求包括多个局部数据特征需求，每个所述局部数据特征需求包括：联邦参与者信息，需求数据格式和需求数据语义，所述需求数据格式为所述联邦学习目标任务规定的联邦学习所用的数据结构。

假定机器学习最终需要的输入样本数据的特征维度为d，这些特征可被纵向划分为M个局部，即x＝[x₁,...,x_M],M≤d。每个局部的数据特征由对应的联邦参与者负责提供，即由联邦参与者j提供其中的局部数据特征x_j。由于数据的异构性，联邦参与者j并不能直接提供满足学习格式要求的局部数据特征x_j。

联邦学习目标任务中包括对每个局部数据特征的需求信息，其中至少包括该局部数据特征对应的联邦参与者信息，需求数据格式和需求数据语义，由此，联邦服务器j可以根据联邦学习目标任务，编制得到对应的局部数据特征需求Req(x_j)，上述多个局部数据特征需求共同组成了对一个完整的输入数据x的联邦学习数据需求Req(x)，该联邦学习数据需求Req(x)可以表示为Req(x)＝[Req(x₁),Req(x₂),…,Req(x_M)]。该联邦学习数据需求所对应的一条用户数据，在进行用户信用评估的应用场景中，可以理解为针对一个样本用户的信用评估数据。示例性的，由于各个银行的所存储的用户数据结构不同，且考虑到用户信息隐私问题，各个银行之间的信息不能实现直接的整合组织，在此情况下，每个银行相当于一个联邦参与者，作为一个数据孤岛存在。一个用户的信用评估数据，由各个银行中存储的该用户的信用评估数据组成，一个局部数据特征表示其中一个银行所对应的该用户的信用评估数据。

具体的，所述局部数据特征需求可以表示为：

Req(x_j)＝[S_j,R_j,D_j]

其中，Req(x_j)表示由联邦参与者j提供的局部数据特征需求，S_j表示联邦参与者信息，即表示局部数据特征x_j的数据来源为联邦服务器j；R_j表示局部数据特征x_i的需求数据格式，或需求数据格式及范围，所述需求数据格式R_j为联邦学习目标任务规定的联邦学习所用的数据结构，例如R_j＝{R⁵；[0,100]⁵}代表该局部数据特征x_j包含五个100以内的正实数；D_j表示该局部数据特征x_j的需求数据语义，用自然语言表示存储，例如D_j＝[‘五门学科的考试分数’]。

步骤S103，所述联邦服务器将所述多个局部数据特征需求，发送至对应的所述联邦参与者；

具体的，对于Req(x₁),Req(x₂),…,Req(x_M)其中的每一项局部数据特征需求Req(x_j)，联邦服务器将根据其中指明的联邦参与者信息S_i，将其发送至对应的联邦参与者。例如Req(x₂)中的S₂＝{2}，意味着联邦服务器将局部数据特征x₂的数据需求Req(x₂)发送至编号为2的联邦参与者。

步骤S104，所述多个联邦参与者根据接收到的所述局部数据特征需求，生成对应的OBDA映射文件；所述OBDA映射文件，即，基于本体的数据访问(Ontology-Based DataAccess，OBDA)，表征从所述联邦参与者自身的关系数据库表中提取原始数据特征的提取方式，以及将该原始数据特征组织并转换为局部数据特征的转换方式；所述原始数据特征的数据格式不同于所述需求数据格式。

联邦参与者根据接收到的局部数据特征需求，明确自身所参与的数据项贡献关系，确认需要提供的局部数据特征x_j。针对需求中规定的数据结构、类型与范围、语义等，创建并编辑OBDA映射文件。

在一种实施例中，所述联邦参与者根据接收到的所述局部数据特征需求，生成对应的OBDA映射文件，包括：

映射文件从语义上明确了如何从联邦服务器j的关系数据库表中按需提取、组织、转换相关数据。各个联邦参与者根据接收到的局部数据特征需求，可以通过分析其中的需求数据语义，找到自身拥有的关系数据库表中具有相同语义内容的数据源。由于数据孤岛问题，该数据源属于异构数据，其原始的数据结构不同于上述需求数据格式，不能直接作为局部数据特征，所以需要将该数据源的原始的数据结构转化为需求数据格式，从而得到对应的局部数据特征。

步骤S105，所述多个联邦参与者根据自身生成的所述OBDA映射文件，得到符合所述需求数据格式的局部数据特征；

在一种实施例中，所述OBDA映射文件表示为如下公式：

Mapping_j＝{Relations_j,SQL_j,x_j}

其中，Mapping_j表示联邦参与者j的OBDA映射文件；x_j为该映射可生成的需求数据格式的局部数据特征；Relations_j表示在所述联邦参与者j中的，关于所述局部数据特征的所述关系数据库表集合；SQL_j为完成映射所对应的SQL查询语句。由此，联邦参与者根据对应的OBDA映射文件，利用该SQL_j查询语句，在关系数据库表集合Relations_j中提取出具有相同语义的数据特征，并将其组织并转化为，符合需求数据格式的局部数据特征x_j。

步骤S106，所述联邦服务器确定全局联邦学习模型；

联邦服务器与每个联邦参与者j协商，为其确定一个参数为θ_j的嵌入函数ω_j(x_n,j；θ_j)。常用的嵌入函数如多层感知机等。在此基础上，确定全局联邦学习模型，具体公式可以表达为：

其中，对于第n条训练数据x_n＝[x_n,1,…,x_n,M],ω_n,j代表联邦参与者j的嵌入函数ω_j(x_n,j；θ_j)的缩写；l代表损失函数，可以为常用的损失函数，如softmax函数等；Ω代表参数的正则项函数，用于防止联邦学习的过拟合，可以为L2正则函数等；θ₀为所述全局联邦学习模型的模型参数，θ_j为各个联邦参与者的自身的嵌入函数的参数。

步骤S107，所述多个联邦参与者和所述联邦服务器利用所述局部数据特征，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型；

具体的，可以通过纵向联邦学习的异步优化更新方法，实现对联邦学习模型的迭代训练：

由各个联邦参与者异步地循环执行指定以下步骤：随机选取一条(或一批)数据样本x_n，联邦参与者利用对应的局部特征数据x_n,j，计算得到该样本的局部函数值，并发送至联邦服务器。同时，联邦参与者开启一个异步进程，以监听模式随时准备接受来自联邦服务器的梯度v_j，并以此梯度v_j更新自身的嵌入函数的参数θ_j，即θ_j←θ_j-η_jθ_j。

并且，联邦服务器异步地循环执行以下步骤：联邦服务器以监听模式随时准备接受来自各个联邦参与者j的局部函数值。当接收到该值后，计算与联邦服务器相关的更新梯度v₀并以此梯度v₀更新参数θ₀，即θ_j←θ_j-η_jθ_j。接下来，计算与联邦服务器j相关的梯度v_j，并发送至联邦服务器j。

由此异步循环执行上述操作，直至该过程收敛，结束循环，得到目标联邦学习模型。

步骤S108，将待评估用户的数据输入任一的所述联邦参与者中的所述目标联邦学习模型，得到对该用户的信用评估结果。

训练得到的目标联邦学习模型可以部署在各个联邦参与者中，由此，可以利用任一个联邦参与者，将待评估用户的数据输入该联邦参与者中的目标联邦学习模型中，从而得到输出结果，即，针对该用户的信用评估结果，由此实现了在异构数据问题条件下的用户信用评估。

本实施例通过联邦服务器根据联邦学习目标任务，编制联邦学习数据需求，联邦学习数据需求中的每个局部数据特征需求的需求数据格式为联邦学习目标任务规定的联邦学习所用的数据结构；多个联邦参与者根据接收到的局部数据特征需求，生成对应的OBDA映射文件，根据该OBDA映射文件，得到符合需求数据格式的局部数据特征；多个联邦参与者和联邦服务器利用局部数据特征，基于全局联邦学习模型，进行迭代训练，得到目标联邦学习模型；将待评估用户的数据输入任一的联邦参与者中的目标联邦学习模型，得到对该用户的信用评估结果。由此，本发明实施例通过编制联邦学习数据需求，在该需求中预先设置训练数据所需要的数据结构，从而使得参与方服务器能够根据该需求，利用OBDA映射方法，将存储的异构数据转换为特定数据结构的训练数据，再利用该训练数据实现对联邦学习模型的训练，从而得到需求的用户信用评估模型，解决了数据异构条件下的联邦学习问题。

在一种实施例中，所述联邦学习数据需求还包括一个或多个局部标签数据需求，所述局部标签数据需求包括：标签联邦参与者信息、标签需求数据格式、融合函数、标签语义内容；

在本实施例中，联邦学习任务中还需要用到数据标签，对输入的训练数据进行标记，示例性的，在进行用户信用评估的应用场景中，可以理解为针对一个样本用户的信用评估标签数据。联邦学习目标任务中包括对每个标签y的需求信息，其中至少包括该标签y具体是由哪些信息组成的，每个信息是由哪一个联邦参与者提供，以及该信息对应的联邦参与者信息，标签需求数据格式和标签语义内容和适配的融合函数。在步骤S102中，联邦服务器编制的联邦学习数据需求中还包括了局部标签数据需求，联邦服务器根据联邦学习目标任务，确定输出标签y的数据需求Req(y)。与传统的联邦学习不同，本发明实施例考虑到一个训练数据对应的标签可能由多个联邦参与者所拥有的信息共同确定，一个输入数据的标签可能需要考虑多方因素才能够确定，可以表示为，y＝[y₁,...,y_n]。对应的，针对该标签y编制得到的多个局部标签数据需求，可以表示为：Req(y)＝[Req(y₁),Req(y₂),…,Req(y_n)]。并且，传统的单方拥有标签的情形同样属于这种建模假设的一种特例，因此依然适用于本发明实施例的技术方案。

在一种实施例中，所述局部标签数据需求表示为：

Req(y_j)＝[S_yj,R_yj,f_y,D_yj,D_y]

其中，S_yj为标签联邦参与者信息，表示影响该标签数据项的联邦参与者j；R_yj为联邦参与者j贡献的标签数据e_yj的标签需求数据格式和范围，其中所述标签需求数据格式为所述联邦学习目标任务规定的联邦学习所用的标签的数据结构；D_yj为所述标签数据项的语义内容，D_y表示最终组合得到的标签的语义内容，用自然语言进行存储，示例性的，对于一个有关用户网上活跃度的标签数据而言，可能有Dyj＝{“论坛1发帖数”，“论坛1回帖数”，“论坛2发帖数”，“论坛2回帖数”，…“论坛n回帖数”}，D_y则表示“用户活跃等级”。f_y为所述融合函数，表示将所有标签数据项e_yj融合得到标签y的公式，表征了标签y如何由来自n个联邦参与者贡献的数据项e_yj融合形成，所述融合函数由具体的业务领域规则确定；示例性的，上述网上活跃度示例中，对应的融合函数可能是

即一个求和后的伸缩取整函数。又如，如果标签语义D_y为“用户月开支”则对应的，Dyj＝{“租房开支”，“车险支出”，“社保支出”…“基金支出”}，其对应的融合函数可以是一个简单的求和函数f_y(e_y1,e_y2,...,e_yn)＝e_y1+e_y2+...+e_yn。

在本实施例中，所述方法还包括：

所述联邦服务器将所述局部标签数据需求，发送至对应的所述联邦参与者；具体的，对于Req(y₁),Req(y₂),…,Req(y_n)其中的每一项局部标签数据需求Req(y_j)，联邦服务器将根据其中指明的联邦参与者信息S_yj,，将其发送至对应的联邦参与者。例如Req(y₂)中的S_y2＝{4}，意味着联邦服务器将标签y₂的数据需求Req(y₂)发送至编号为4的联邦参与者。

所述联邦参与者根据接收到的所述局部标签数据需求，生成对应的标签OBDA映射文件。具体的，联邦参与者根据接收到的局部标签数据需求，明确自身所参与的标签数据项贡献关系，确认需要提供的标签数据项e_yj。针对需求中规定的数据结构、类型与范围、语义等，创建并编辑OBDA映射文件。在一种实施例中，该标签OBDA映射文件可以表示为：

为完成映射所对应的SQL查询语句。

联邦参与者根据该映射文件，利用对应的SQL查询语句

在关系数据库表集合/>

中提取出具有相同语义的标签数据，并将其转化为符合需求数据格式的标签数据项e_yj，然后将其发送至联邦服务器。

在一种实施例中，所述联邦参与者和所述联邦服务器利用所述局部数据特征，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型，包括：

具体的，假设训练集包含N条数据

对于每条训练样本x_n，每个联邦服务器j使用OBDA映射Mapping_j从自身数据库中得到局部训练数据特征x_n,j；对应的，每条训练样本数据x_n会有一条标签数据y_n，各个接收到Req(y_j)的联邦参与者j使用OBDA映射文件

从自身数据库中得到标签组成项e_yj，然后将其发送至联邦服务器，由联邦服务器利用融合函数进行组合计算，得到标签数据y_n。在全局联邦学习模型进行迭代训练时，每输入一次训练样本数据x_n，则需要对应的标签数据y_n一并用于模型训练。

在一种实施例中，所述初级联邦学习模型包括各个所述联邦参与者中的嵌入函数，所述联邦参与者和所述联邦服务器利用所述局部数据特征和所述标签数据，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型，包括如下步骤：

步骤1，所述联邦参与者和所述联邦服务器执行初始化操作。

具体的，由联邦服务器启动联邦学习任务，对其参数θ_o进行初始化，并确定参数θ₀的学习率策略η₀。由各个联邦参与者j＝{1,...,M}启动联邦学习任务，分别对其自身的嵌入函数的参数θ_j进行初始化，并确定参数θ_j的学习率策略η_j。所述参数θ_j为各个联邦参与者的嵌入函数的参数。

步骤2，在第t轮训练中随机选择一个训练样本数据x_n，各个所述联邦参与者确定所述训练样本数据x_n对应的所述局部数据特征x_n,j，基于第t轮的该联邦参与者自身的嵌入函数ω_j(x_n,j；θ_j)，得到局部函数值ω_n,j。

具体的，所述初级联邦学习模型的更新梯度的计算公式为：

所述联邦参与者的第t+1轮的梯度的计算公式为：

具体的，联邦服务器根据更新梯度v₀和对应的学习率策略η₀，更新参数θ₀，即θ₀←θ₀-η₀v₀。

具体的，各个联邦参与者以监听模式随时准备接受联邦服务器发送的梯度v_j。

步骤7，所述联邦参与者利用所述第t+1轮的梯度v_j，更新自身的嵌入函数的参数θ_j，得到第t+1轮的嵌入函数。

具体的，各个联邦参与者根据接受到的梯度v_j和对应的学习率策略η_j，更新参数θ_j，即θ_j←θ_j-η_jv_j。

具体的，判断学习收敛有很多现成的方法和工具，在本实施例中不进行具体描述。在判断该联邦学习任务未收敛时，则返回至步骤2，进行第t+1轮训练，重新选择一个训练样本数据x_n，再次进行训练。由此，通过迭代训练，使模型参数不断优化，最终收敛得到训练完成的目标联邦学习模型。由此，本实施例在运用OBDA映射技术以及纵向联邦学习的异步优化更新技术的基础上，通过OBDA本体映射的方式将数据孤岛(各个联邦参与者)中的异构数据映射到统一数据空间，并以此实现纵向联邦机器学习，有效解决了数据异构条件下的联邦学习问题。

本实施例第二方面提供了一种联邦学习系统，参照图2，图2示出了一种联邦学习系统的结构示意图，如图2所示，所述联邦学习系统包括联邦服务器和多个联邦参与者；

所述联邦服务器还用于确定全局联邦学习模型；

本实施例第三方面提供了一种用户信用评估装置，参照图3，图3示出了一种用户信用评估装置的结构示意图，如图3所示，所述装置包括：

获取模块，用于获取联邦学习目标任务；

需求编制模块，用于根据所述联邦学习目标任务，编制联邦学习数据需求，所述联邦学习数据需求包括多个局部数据特征需求，每个所述局部数据特征需求包括：联邦参与者信息，需求数据格式和需求数据语义，所述需求数据格式为所述联邦学习目标任务规定的联邦学习所用的数据结构。

初始化模块，用于确定全局联邦学习模型；

在一种实施例中，所述映射文件生成模块，包括：

在一种实施例中，所述OBDA映射文件表示为如下公式：

Mapping_j＝{Relations_j,SQL_j,x_j}

所述装置还包括：

在一种实施例中，所述局部标签数据需求表示为：

Req(y_j)＝[S_yj,R_yj,f_y,D_yj,D_y]

所述标签OBDA映射文件生成模块，表示为：

为完成映射所对应的SQL查询语句。

在一种实施例中，训练模块，包括：

在一种实施例中，所述初级联邦学习模型包括各个所述联邦参与者中的嵌入函数，所述训练模块，包括：

第一训练子模块，用于执行初始化操作；

本发明实施例还提供了一种电子设备，参照图4，图4是本发明实施例提出的电子设备的结构示意图。如图4所示，电子设备100包括：存储器110和处理器120，存储器110与处理器120之间通过总线通信连接，存储器110中存储有计算机程序，该计算机程序可在处理器120上运行，进而实现本发明实施例公开的一种用户信用评估方法中的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本发明实施例公开的一种用户信用评估方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种用户信用评估方法、联邦学习系统、装置和设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用户信用评估方法，其特征在于，应用于联邦学习系统，所述联邦学习系统包括联邦服务器和多个联邦参与者，所述方法包括：

所述联邦服务器获取联邦学习目标任务；

所述联邦服务器确定全局联邦学习模型；

2.根据权利要求1所述的用户信用评估方法，其特征在于，所述联邦参与者根据接收到的所述局部数据特征需求，生成对应的OBDA映射文件，包括：

3.根据权利要求2所述的用户信用评估方法，其特征在于，所述OBDA映射文件表示为如下公式：

Mapping_j＝{Relations_j，SQL_j，x_j}

4.根据权利要求1所述的用户信用评估方法，其特征在于，所述联邦学习数据需求还包括一个或多个局部标签数据需求，所述局部标签数据需求包括：标签联邦参与者信息、标签需求数据格式、融合函数、标签语义内容；

所述方法还包括：

5.根据权利要求4所述的用户信用评估方法，其特征在于，所述局部标签数据需求表示为：

Req(y_j)＝[S_yj，R_yj，f_y，D_yj，D_y]

其中，S_yj为标签联邦参与者信息，表示影响该标签数据项的联邦参与者；R_yj为来自S_yj联邦参与者j的标签数据项e_yj的需求数据格式和范围；f_y为所述融合函数，表示将所有标签数据项e_yj融合得到标签y的公式，所述融合函数由具体的业务领域规则确定；D_yj为所述标签数据项e_yj的语义内容，D_y表示最终组合得到的标签y的语义内容；

为完成映射所对应的SQL查询语句。

6.根据权利要求5所述的用户信用评估方法，其特征在于，所述联邦参与者和所述联邦服务器利用所述局部数据特征，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型，包括：

所述联邦参与者和所述联邦服务器利用所述局部数据特征和所述标签数据，基于所述全局联邦学习模型，进行迭代训练，得到所述目标联邦学习模型。

7.根据权利要求6所述的用户信用评估方法，其特征在于，所述初级联邦学习模型包括各个所述联邦参与者中的嵌入函数，所述联邦参与者和所述联邦服务器利用所述局部数据特征和所述标签数据，基于所述全局联邦学习模型，进行迭代训练，得到目标联邦学习模型，包括如下步骤：

步骤1，所述联邦参与者和所述联邦服务器执行初始化操作；

步骤2，在第t轮训练中随机选择一个训练样本数据x_n，各个所述联邦参与者确定所述训练样本数据x_n对应的所述局部数据特征x_n，j，基于第t轮的该联邦参与者自身的嵌入函数ω_j(x_n，j；θ_j)，得到局部函数值ω_n，j；

步骤3，所述联邦参与者将在第t轮训练中得到的所述局部函数值ω_n，j发送至所述联邦服务器；

步骤4，所述联邦服务器根据各个所述联邦参与者发送的所述局部函数值ω_n，j，以及所述标签数据y_n，基于第t轮训练中的所述初级联邦学习模型，计算得到各个所述联邦参与者的第t+1轮的梯度v_j，和所述初级联邦学习模型的更新梯度v₀；

8.一种联邦学习系统，其特征在于，所述联邦学习系统包括联邦服务器和多个联邦参与者；

所述联邦服务器还用于确定全局联邦学习模型；

9.一种用户信用评估装置，其特征在于，所述装置包括：

获取模块，用于获取联邦学习目标任务；

初始化模块，用于确定全局联邦学习模型；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至7中任一项所述的用户信用评估方法中的步骤。