CN115577034B

CN115577034B - 一种基于数据体系的联邦计算系统及方法

Info

Publication number: CN115577034B
Application number: CN202211451519.2A
Authority: CN
Inventors: 陆志鹏; 国丽; 刘国栋; 朱立锋; 陈勃胜; 朱海涛; 杨化龙; 李英帅; 郑曦; 周崇毅; 赵健; 温彦龙; 乔亲旺; 范国浩
Original assignee: CHINA ELECTRONIC INFORMATION INDUSTRY GROUP Co
Current assignee: CHINA ELECTRONIC INFORMATION INDUSTRY GROUP Co
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-04-04
Anticipated expiration: 2042-11-21
Also published as: CN115577034A

Abstract

本发明提出了一种基于数据体系的联邦计算系统及方法，联邦计算系统，包括：用户端、数据库、计算引擎及联邦计算基础服务，用户端基于联邦计算任务发起SQL语句，包括用于获取数据集的标准SQL语句和用于描述计算模型的扩展SQL语句；数据库用于存储联邦计算所需数据集及存储数据结果；计算引擎用于解析接收的SQL语句，获取工作流，并基于工作流和预置的参数模板配置生成工作流任务；联邦计算基础服务用于接收并执行工作流任务，并经计算结果经计算引擎存储至数据库。本发明从数据体系出发，去描述联邦计算。可以用SQL语言完整、清晰、准确的描述联邦计算的各个阶段，编排各种任务，实现从训练到预测，到模型发布等全生命周期的管理。

Description

一种基于数据体系的联邦计算系统及方法

技术领域

本发明涉及联邦计算技术领域，尤其涉及一种基于数据体系的联邦计算系统及方法。

背景技术

目前，联邦计算处于工业化应用的初期，各种支撑平台和系统层出不穷，这些支撑平台和系统往往从算法和模型的角度，从隐私计算的底层协议，算法入手，编排出参与联合计算的数据流经遵循的复杂的庞大的联合计算DAG路径，然后将这些任务提交并执行，得到联邦计算的结果。

为了支撑各自的联邦计算体系，每个平台都定义了自己的一套“方言”，用以描述数据，描述算法模型，描述任务，描述工作流等等。从数据的摄入（ingest）到任务的编排、提交、执行、模型的发布等等，每一个平台和系统都强烈依赖于自己特定的方言。

由于各自拥有不同的方言，支撑联邦计算的各种平台和系统很难做到统一，形成各自的壁垒，具有很高的学习成本，使用的门槛也非常高。联邦计算作为解决数据孤岛问题的方案，往往有发展成为新的数据孤岛的趋势。

联邦计算大规模的应用任重道远，扩大用户，降低门槛面临着很多挑战。

出现以上问题的根本原因在于目前的支撑平台和系统立足点和出发点是模型和算法，忽略了这些模型和算法存在的基础--数据，忽略数据体系几十年已经发展完备的体系和发展成果，而自己定义一种“方言”的方案，是一种中间方案和临时方案。

因此，从联邦计算诞生起一直存在着数据与模型之间的割裂与鸿沟，业界缺乏一套统一的，通用的，支持多模异构数据的联邦计算的构建方法和系统。

发明内容

本发明要解决的技术问题是如何提高联邦计算的通用性和便利性，本发明提出一种基于数据体系的联邦计算系统及方法。

根据本发明实施例的基于数据体系的联邦计算系统，包括：

用户端，为计算引擎的客户端，与计算引擎通信，接收用户基于联邦计算任务输入的SQL语句，并向所述计算引擎发起SQL语句，包括用于获取数据集的标准SQL语句，和用于描述计算模型的扩展SQL语句；

数据库，用于存储联邦计算所需数据集及存储数据结果；

计算引擎，用于解析接收的所述SQL语句，获取工作流，并基于所述工作流和预置的参数模板配置生成工作流任务；

联邦计算基础服务，用于接收并执行所述工作流任务，并经计算结果经所述计算引擎存储至所述数据库。

根据本发明的一些实施例，所述计算引擎包括：

解析模块，用于解析所述SQL语句，通过第一处理模块处理所述标准SQL语句，得到第一处理结果；通过第二处理模块处理所述扩展SQL语句，得到第二处理结果，并基于所述第一处理结果和所述第二处理结构生成工作流；

校验器，用于对所述工作流进行校验；

适配器，用于根据校验后的所述工作流对预置的参数模板进行配置，生成工作流任务。

在本发明的一些实施例中，所述校验器对所述工作流进行的校验工作包括：

检查初始化的角色及角色ID；

判断任务类型，并根据任务类型基于预设校验清单进行校验工作。

根据本发明的一些实施例，当所述校验器判断所述任务类型为训练纵向逻辑回归模型时，则校验数据输入表是否存在，数据集是否符合规范。

在本发明的一些实施例中，所述扩展SQL语句描述的计算模型包括以下中的至少一种：同态加密、横向联邦学习、纵向联邦学习及迁移学习。

根据本发明实施例的基于数据体系的联邦计算方法，所述联邦计算方法采用如上所述的基于数据体系的联邦计算系统进行联邦计算，所述方法包括：

所述计算引擎接收用户端的SQL语句，获取工作流，并基于所述工作流和预置的参数模板配置生成工作流任务；

联邦计算基础服务接收并执行所述工作流任务，并将计算结果经所述计算引擎存储至所述数据库。

根据本发明的一些实施例，所述计算引擎接收用户端的SQL语句，获取工作流，并基于所述工作流和预置的参数模板配置生成工作流任务具体包括：

通过解析模块解析所述SQL语句，通过第一处理模块处理所述标准SQL语句，得到第一处理结果；通过第二处理模块处理所述扩展SQL语句，得到第二处理结果，并基于所述第一处理结果和所述第二处理结构生成工作流；

通过校验器对所述工作流进行校验；

通过适配器根据校验后的所述工作流对预置的参数模板进行配置，生成工作流任务。

检查初始化的角色及角色ID；

本发明具有如下有益效果：

本发明从数据体系出发，去描述联邦计算。可以用SQL语言完整、清晰、准确的描述联邦计算的各个阶段，编排各种任务，实现从训练到预测，到模型发布等全生命周期的管理。有望成为一种统一的，通用的，支持多模异构数据的联邦计算构建方法和系统。

本发明使联邦计算的使用门槛大幅度降低，使用户受众范围大幅度的增长，由之前的少数数据科学家，扩展到一般的数据使用者，推动联邦计算的大规模普及应用。

与此同时，本发明将使SQL具备了联邦计算的能力，打通了数据与模型之间的割裂，对于数据与算法的融合具有重要意义。

附图说明

图1为根据本发明实施例的基于数据体系的联邦计算系统示意图；

图2为根据本发明实施例的基于数据体系的联邦计算方法流程图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行，方法步骤是可以改变执行顺序的。而且，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

SQL语言自上世纪70年代诞生以来，经历了几十年的发展，已然成为数据领域的核心技术，也成为了数据领域的事实上的标准和通用语言。

联邦计算与一般的机器学习，分布式机器学习有很大的不同，两者解决的学术问题不一样，目前的SQL机器学习方案只能支持明文数据，而联邦计算需要基于特定的加密数据上计算，这需要在内核层面实现特定的算子。

联邦计算的任务编排方式与一般的机器学习有很大的差异。各计算参与方的DAG图是不一致的，而一般的机器学习是一致的。

处理逻辑在计算开始之前，计算中，以及计算后都有很大的差异，如：计算开始前，各数据拥有方之间有取交集，样本对齐，同态加密等特有流程，这些在常规的机器学习过程中是不具备的。

计算中，联邦计算各方的数据可用而不可见，而一般的机器学习和分布式机器学习无需考虑各方的数据保护，节点之间是互相透明的。

计算之后，各方在线预测的过程，需要各方的参与，这些流程在一般的机器学习里没有的。

另外，目前的SQL支持机器学习方案只能支持关系模型数据，支持特定的数据库，特定的计算引擎。不能实现一种统一的，通用的，支持多模异构数据的目标。

基于以上的特点和差异，目前的通过SQL进行机器学习的方案是无法做到的，需要专门的联邦计算算子支撑。

为了提高联邦计算的通用性和便利性，本发明提出一种基于数据体系的联邦计算系统及方法。

如图1所示，根据本发明实施例的基于数据体系的联邦计算系统，包括：用户端、数据库、计算引擎及联邦计算基础服务。

其中，如图1所示，用户端（即图1中所示的client）接收用户基于联邦计算任务输入的SQL语句，并向计算引擎发起SQL语句，包括用于获取数据集的标准SQL语句和用于描述计算模型的扩展SQL语句。

需要说明的是，标准SQL语句可以获取数据集及数据集查询、新增、读取、删除等操作。

数据库用于存储联邦计算所需数据集及存储数据结果；

计算引擎用于解析接收的SQL语句，获取工作流，并基于工作流和预置的参数模板配置生成工作流任务；

联邦计算基础服务用于接收并执行工作流任务，并经计算结果经计算引擎存储至数据库。

根据本发明的一些实施例，如图1所示，计算引擎包括：解析模块、校验器和适配器。

解析模块用于解析SQL语句，通过第一处理模块处理标准SQL语句，得到第一处理结果；通过第二处理模块处理扩展SQL语句，得到第二处理结果，并基于第一处理结果和第二处理结构生成工作流；

校验器用于对工作流进行校验；

适配器用于根据校验后的工作流对预置的参数模板进行配置，生成工作流任务。

在本发明的一些实施例中，校验器对工作流进行的校验工作包括：

检查初始化的角色及角色ID；

根据本发明的一些实施例，当校验器判断任务类型为训练纵向逻辑回归模型时，则校验数据输入表是否存在，数据集是否符合规范。

在本发明的一些实施例中，扩展SQL语句描述的计算模型包括以下中的至少一种：同态加密、横向联邦学习、纵向联邦学习及迁移学习。

根据本发明实施例的基于数据体系的联邦计算方法，联邦计算方法采用如上的基于数据体系的联邦计算系统进行联邦计算，方法包括：

S100，计算引擎接收用户端的SQL语句，获取工作流，并基于工作流和预置的参数模板配置生成工作流任务；

S200，联邦计算基础服务接收并执行工作流任务，并将计算结果经计算引擎存储至数据库。

根据本发明的一些实施例，S100，计算引擎接收用户端的SQL语句，获取工作流，并基于工作流和预置的参数模板配置生成工作流任务具体包括：

S101，通过解析模块解析SQL语句，通过第一处理模块处理标准SQL语句，得到第一处理结果；通过第二处理模块处理扩展SQL语句，得到第二处理结果，并基于第一处理结果和第二处理结构生成工作流；

S102，通过校验器对工作流进行校验；

S103，通过适配器根据校验后的工作流对预置的参数模板进行配置，生成工作流任务。

检查初始化的角色及角色ID；

本发明具有如下有益效果：

下面参照附图详细描述根据本发明的基于数据体系的联邦计算系统及方法。值得理解的是，下述描述仅是示例性描述，而不应理解为对本发明的具体限制。

本发明主体由增强联邦计算引擎（extend federate compute engine）构成，简称EFCE。

在增强联邦计算引擎内部，由解析器（PARSER）、校验器（VERIFIER）、联邦计算适配器（ADAPTER）组成。解析器主要由标准SQL处理器，扩展语法处理器两部分构成。

PARSER负责识别用户的输入并将输入语句转化为工作流、执行计划。

VERIFIER负责从联邦计算的角度，对解析器生成的工作流是否正确进行校验。

ADAPTER则是根据验证器已验证的工作流，与底层的联邦学习框架进行适配，提交任务。

本发明在SQL语法层面做了扩展，在引擎内部，扩展了intersect、特征工程、同态加密等算子，封装了横向联邦学习、纵向联邦学习、迁移学习的模型算法。

参与联邦计算的角色定义：

Guest Guest表示数据应用方，一般是由Guest发起建模流程。

Host Host是数据提供方。

Arbiter arbiter位于联邦计算基础服务中，用来辅助多方完成联合建模的，主要作用是用来聚合梯度或者模型，比如纵向lr里面，各方将自己一半的梯度发送给arbiter，然后arbiter再联合优化等等，arbiter还参与以及分发公私钥，进行加解密服务等等。

下面以guest参与纵向联邦计算，训练线性回归模型为例描述本发明的基于数据体系的联邦计算系统及方法：

S1，Guest角色的用户从客户端输入扩展的SQL语句：

select * from demo.data1 federate train hetero_linr

using role=guest, jobtemplate=1, runningtemplate=1,algorithm_parameters=1

storemodel.lineregression

其中select * from demo.data1部分为标准的select语句。主要作用是选定参与训练的数据集。

federate train hetero_linr

using role=guest, jobtemplate=1, runningtemplate=1,algorithm_parameters=1

store model.lineregression部分是扩展语法federate train子句、using子句以及store子句。

federate train子句标识训练使用的模型为hetero_linr（纵向线性回归）。

using子句是对联邦计算的参数进行定义。

store子句标识训练后模型结果输出。

经过扩展，SQL语句可以清晰的描述用户的任务，参数，以及输入的数据集和输出的结果。

S2，增强联邦计算引擎接收到SQL语句，交给PARSER解析。由于不同的SQL引擎语法不一样，使用引擎的解析器来解析标准的 SQL语句，简称SGP（standard grammar parser）。扩展语法处理器简称EGP（extendgrammarparser）。下面三条语句中，federate train前面的语句由SGP处理，而EGP负责解析federatetain后面的语句。

CREATE TABLE my_training_table AS SELECT employee;

SELECT * FROM my_predict_table;

select * from demo.data1 federate train hetero_linr

using role=guest, jobtemplate=1, runningtemplate=1,algorithm_parameters=1store model.lineregression;

具体地，使用 EGP 的词法分析器来扫描 SQL 程序，标记拆分 SQL，通过查找像[ TRAIN] 或 [ federate ]这样的连续标记来拆分扩展 SQL。

如果找到，在federate标记的开始位置拆分子字符串。

SGP将解析子字符串的前半部分，EGP 将解析后半部分。

如果未找到，SGP 将解析整个子字符串。

例如，词法分析器可以遍历 SQL 语句SELECT ... FEDERATE TRAIN，发现它满足拆分条件。

其中，步骤S1中输入的SQL语句中，federate train hetero_linr

using role=guest, jobtemplate=1, runningtemplate=1,algorithm_parameters=1

store model.lineregression，交给SGP处理；

步骤S1中输入的SQL语句中，select * from demo.data1部分交给EGP处理。

在解析完SGP 和 EGP 之后，会根据解析结果生成一个工作流。

S3，PARSER解析后，交给VERIFIER校验；

校验器会首先检查初始化的角色，角色ID，任务类型是训练还是预测，横向联邦计算，还是纵向联邦计算。根据任务类型做不同的校验list，如：

本例中是任务类型是训练，纵向逻辑回归模型，则会校验数据输入表是否存在，数据集是否符合规范，

调用内部扩展同态加密算子使用paillier算法将数据加密后导入并映射到联邦学习框架的表空间。

与各参与方的数据做intersect求交集，切割数据。

校验运行参数，

校验模型算法超参数，

校验联邦计算参数。

整合参数作为联邦计算的全局的参数，缺少的参数填入默认值。

S4，校验器完成以后，将校验通过的工作流传递给适配器。

适配器负责根据传递过来的工作流以及当前部署的联邦计算底层框架，进行参数和配置的适配转化工作。步骤S3已经选定了合适的参数，这一步是让这些参数以一种可以发挥作用的方式配置好，不同的底层联邦计算框架的要求的格式不一样，适配器预先根据每一种框架，准备了一个配置参数模板。将步骤S3的参数逐一填入模板。

S5，适配完成以后，将适配好的配置及任务描述文件，提交给联邦计算基础服务。联邦计算基础服务根据适配器提交的工作流任务，启动相应的任务，进行联邦计算，并返回结果给增强联邦计算引擎。

另外，值得强调的是，本发明从数据体系出发，以SQL原生方式或者扩展方式包括但不限于使用UDF等，基于多模异构的数据，构建联邦学习的方法和系统

本发明以SQL原生方式或者扩展方式包括但不限于使用UDF等，支持联邦学习的训练，预测，使用，模型发布，模型管理等功能。

本发明以SQL原生方式或者扩展方式包括但不限于使用UDF等，支持各种联邦学习算法及模型等。

本发明以SQL的pipeline方式为联邦学习提供数据的方法和系统。

pipeline 方式指直接通过输入sql语句，前一个sql算子的数据集输出作为下一个算子的输入，依次编排出在相应的数据集上的各种任务，形成一种类似于工作流的方式。这种方式可以极大的简化一些复杂的任务，如：

Select * from tablea federate train modela store model.test

Select 算子选定的数据集被federate train 算子使用，用以训练modela,它的输出模型作为store算子的输入，保存到model数据库的test表里。

本发明以SQL的pipeline方式混合联邦计算及联邦查询等ad-hoc即席查询实现。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种基于数据体系的联邦计算系统，其特征在于，所述联邦计算系统支持联邦学习的训练、预测、使用、模型发布及模型管理功能，所述联邦计算系统包括：

用户端，为计算引擎的客户端，与计算引擎通信，接收用户基于联邦计算任务输入的SQL语句，并向所述计算引擎发起SQL语句，包括用于获取数据集的标准SQL语句，和用于描述联邦计算任务的扩展SQL语句，所述扩展SQL语句包括描述计算任务中的计算模型选择、参数定义及结果输出子句，计算模型包括以下中的至少一种：同态加密、横向联邦学习、纵向联邦学习及迁移学习；

数据库，用于存储联邦计算所需数据集及存储数据结果；

联邦计算基础服务，用于接收并执行所述工作流任务，并经计算结果经所述计算引擎存储至所述数据库，Arbiter arbiter位于所述联邦计算基础服务中，用来辅助多方完成联合建模，包括用来聚合梯度或者模型，参与以及分发公私钥，进行加解密服务；

所述计算引擎内部扩展了intersect、特征工程、同态加密算子，封装了横向联邦学习、纵向联邦学习、迁移学习的模型算法，所述计算引擎包括：

解析模块，用于解析所述SQL语句，通过第一处理模块处理所述标准SQL语句，得到第一处理结果；通过第二处理模块处理所述扩展SQL语句，得到第二处理结果，并基于所述第一处理结果和所述第二处理结果生成工作流，所述第一处理模块为标准语法处理器SGP，所述第二处理模块为扩展语法处理器EGP，使用扩展语法处理器EGP 的词法分析器来扫描 SQL程序，标记拆分 SQL，通过查找“TRAIN” 或“federate”连续标记来拆分扩展 SQL；如果找到“federate”连续标记，在“federate”标记的开始位置拆分子字符串；SGP 将解析子字符串的前半部分，扩展语法处理器EGP将解析后半部分；

校验器，用于对所述工作流进行校验；

适配器，用于根据校验后的所述工作流对预置的参数模板进行配置，生成工作流任务；

所述校验器对所述工作流进行的校验工作包括：

检查初始化的角色及角色ID；

判断任务类型，并根据任务类型基于预设校验清单进行校验工作；

调用内部扩展同态加密算子使用paillier算法将数据加密后导入并映射到联邦学习框架的表空间；

与各参与方的数据做intersect求交集，切割数据；

当所述校验器判断所述任务类型为训练纵向逻辑回归模型时，则校验数据输入表是否存在，数据集是否符合规范。

2.一种基于数据体系的联邦计算方法，其特征在于，所述联邦计算方法采用如权利要求1所述的基于数据体系的联邦计算系统进行联邦计算，所述方法包括：

3.根据权利要求2所述的基于数据体系的联邦计算方法，其特征在于，所述计算引擎接收用户端的SQL语句，获取工作流，并基于所述工作流和预置的参数模板配置生成工作流任务具体包括：

通过校验器对所述工作流进行校验；

4.根据权利要求3所述的基于数据体系的联邦计算方法，其特征在于，所述校验器对所述工作流进行的校验工作包括：

检查初始化的角色及角色ID；

5.根据权利要求4所述的基于数据体系的联邦计算方法，其特征在于，当所述校验器判断所述任务类型为训练纵向逻辑回归模型时，则校验数据输入表是否存在，数据集是否符合规范。

6.根据权利要求2-5中任一项所述的基于数据体系的联邦计算方法，其特征在于，所述扩展SQL语句描述的计算模型包括以下中的至少一种：同态加密、横向联邦学习、纵向联邦学习及迁移学习。