CN117473324A

CN117473324A - 基于SGX和XGBoost的模型训练方法、系统及存储介质

Info

Publication number: CN117473324A
Application number: CN202311530520.9A
Authority: CN
Inventors: 程司时; 范学鹏; 汤载阳; 王宸敏; 曾驭龙; 张金波
Original assignee: Beijing Yizhi Technology Co ltd
Current assignee: Beijing Yizhi Technology Co ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-01-30

Abstract

本发明实施例公开了一种基于SGX和XGBoost的模型训练方法、系统及存储介质，该方法在模型训练方的可信执行环境中预设的用于进行模型训练的飞地中先对数据提供方提供的加密数据集进行解密后获得多个原始数据集，对原始数据集进行融合后获得训练数据集，再利用训练数据集训练XGBoost模型，获得训练完成的功能模型，最后将加密后的功能模型发送给训练任务发起方，整个模型训练过程中，原始数据和功能模型的隐私和安全性始终得到保护。

Description

基于SGX和XGBoost的模型训练方法、系统及存储介质

技术领域

本发明涉及计算机软件技术领域，具体涉及一种基于SGX和XGBoost的模型训练方法、系统及存储介质。

背景技术

目前，通信运营商和互联网公司依赖他们所掌握的用户信息来与广告商的深度转化链路数据如付费详情等数据进行整合和分析，一般需要采用AI模型对数据进行分析，得到相应的分析结果，根据分析结果优化广告效果和提高用户满意度。

在目标明确的广告投放中，所需的数据集通常样本多、特性丰富，且使用的AI模型结构较为复杂，需要使用大量不同数据提供方提供的数据融合后进行训练。但是，各个行业之间的数据并不互通，并且经常包含关于用户的隐私信息，这使得数据具有一定的敏感性。随着对数据安全和隐私的政策日益严格，不同公司之间直接公开共享数据的方法已经不再合适，因此需要一种新的模型训练方法，使之既能使用不同公司的数据融合后对AI模型进行训练，又能保证不同公司的数据不会被非法窃取、外泄或误用。

基于可信执行环境(TEE，Trusted Execution Environment)技术，英特尔提出了软件保护扩展(SGX，Software Guard Extensions)技术，SGX是一种切实可行的用户隐私保护措施，它采用硬件辅助的enclave(飞地，也称为安全区)封装敏感数据以及关键程序代码，防止其被泄露。

XGBoost是eXtreme Gradient Boosting的缩写称呼，它是一个Boosting算法工具包，XGBoost能够更快的、更高效率的训练模型。

发明内容

针对现有技术中的技术缺陷，本发明实施例的目的在于提供一种基于SGX和XGBoost的模型训练方法、系统及存储介质，利用Intel SGX的安全性和XGBoost的建模效果，有效地在一个安全的环境中进行模型的训练。

为实现上述目的，第一方面，本发明实施例提供了一种基于SGX和XGBoost的模型训练方法，该方法应用于模型训练方的可信执行环境中预设的用于进行模型训练的飞地中，所述飞地中配置有XGBoost模型，所述方法包括：

接收N个数据提供方提供的加密数据集，其中，N≥2，N为整数；

对所述N个加密数据集分别进行解密，获得N个原始数据集；

对N个所述原始数据集中的数据进行融合处理，获得训练数据集；

利用所述训练数据集训练所述XGBoost模型，获得训练完成的功能模型；

将所述功能模型加密后发送给训练任务发起方。

进一步，在接收N个数据提供方提供的加密数据集之前，所述方法还包括：

生成一对第一非对称密钥，其中公钥记为P_t，私钥记为S_t；

将所述公钥P_t发送给数据提供方，以使所述数据提供方使用所述公钥P_t对数据提供方自身生成的第二非对称密钥的私钥S_a进行加密得到加密私钥S^’ _a；

接收N个数据提供方传输的N个加密私钥S^’ _a；

通过私钥S_t对N个所述加密私钥S^’ _a进行解密，获得N个第二非对称密钥的私钥S_a。

进一步，所述加密数据集由所述数据提供方通过第二非对称密钥的公钥P_a对所述原始数据集加密后获得。

进一步，对所述N个加密数据集分别进行解密，获得N个原始数据集，包括：

使用N个第二非对称密钥的私钥S_a对应对N个加密数据集进行解密，获得N个原始数据集。

进一步，在接收N个数据提供方提供的加密数据集之后，所述方法还包括：

验证每个所述加密数据集的数据授权的合法性，若验证合法，对N个加密数据集分别进行解密；

其中，所述数据授权为数据提供方采用第二非对称密钥的私钥S_a对预设信息的签名，其中，所述预设信息包括公钥P_t和所述飞地的哈希值Hpred。

进一步，验证每个所述加密数据集的数据授权的合法性，若至少一个数据授权验证非法，中止模型训练。

进一步，所述原始数据集中的数据按照数据id进行排序。

进一步，使用所述训练任务发起方生成的公钥P_c对所述功能模型加密。

第二方面，本发明实施例还提供了一种基于SGX和XGBoost的模型训练系统，该系统运行于模型训练方的可信执行环境中预设的用于进行模型训练的飞地中，所述系统包括：

接收模块，用于接收N个数据提供方提供的加密数据集，其中，N≥2，N为整数；

解密模块，用于对所述N个加密数据集分别进行解密，获得N个原始数据集；

融合模块，用于对N个所述原始数据集中的数据进行融合处理，获得训练数据集；

训练模块，用于利用所述训练数据集训练所述XGBoost模型，获得训练完成的功能模型；

发送模块，用于将所述功能模型加密后发送给训练任务发起方。

第三方面，本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的方法。

实施本发明实施例提供的方法，在模型训练方的可信执行环境中预设的用于进行模型训练的飞地中先对数据提供方提供的加密数据集进行解密后获得多个原始数据集，对原始数据集进行融合后获得训练数据集，再利用训练数据集训练XGBoost模型，获得训练完成的功能模型，最后将加密后的功能模型发送给训练任务发起方，整个模型训练过程中，原始数据和功能模型的隐私和安全性始终得到保护。

由于数据加密传输且模型训练过程在模型训练方的可信执行环境中预设的用于进行模型训练的飞地中进行，大大降低了数据泄露的风险，从根本上确保隐私数据不被非法窃取、外泄或误用，不同的数据提供方之间可以更加放心地进行数据共享，促进行业间的合作。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种基于SGX和XGBoost的模型训练方法的流程示意图；

图2是本发明实施例提供的一种基于SGX和XGBoost的模型训练系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

相关技术中的问题在于：相关行业在训练具有特定数据分析、处理功能的AI模型时，需要使用大量不同数据提供方提供的数据融合后进行训练，但是不同数据提供方之间的数据并不互通，且不同数据提供方的原始数据中都含有需要保护或保密的隐私信息，这使得数据具有一定的敏感性，不能在不同的数据提供方之间随意流通，随着对数据安全和隐私的关切日益严格，不同公司之间公开共享数据的方法已经不再合适。

基于可信执行环境(TEE，Trusted Execution Environment)技术，英特尔提出了软件保护扩展(SGX，Software Guard Extensions)技术。SGX是一种切实可行的用户隐私保护措施，它采用硬件辅助的enclave(飞地，也称为安全区)封装敏感数据以及关键程序代码，防止其被泄露。可信执行环境中可以设置功能不同的飞地，本方案的模型训练过程在用于进行模型训练的飞地中进行，该飞地中配置有XGBoost模型。本方案利用Intel SGX的安全性和XGBoost的建模效果，有效地在一个安全的环境中进行模型的训练。

本发明提出的基于SGX和XGBoost的模型训练方法，数据提供方在本地先加密数据后，将加密后的数据传输至模型训练方的可信执行环境中预设的用于进行模型训练的飞地中，再在可信执行环境的飞地中进行数据解密和数据融合获得训练数据集，再利用训练数据集训练XGBoost模型，获得训练完成的功能模型，最后将加密后的功能模型发送给训练任务发起方。原始数据通过加密传输且模型训练过程在模型训练方的可信执行环境的飞地中进行，大大降低了数据泄露的风险，从根本上确保隐私数据不被非法窃取、外泄或误用。

本申请实施例中，基于数据安全通道，允许对于处在不同地点的数据提供方将加密后的原始数据集传输至模型训练方的可信执行环境中，由于原始数据集被加密是密文，所以加密后的原始数据集就算被非法窃取或外泄，也不会造成信息泄露。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本申请实施例提供的一种基于SGX和XGBoost的模型训练方法的流程图。该方法应用于模型训练方的可信执行环境中预设的用于进行模型训练的飞地中，所述飞地中配置有XGBoost模型，模型训练方是独立的第三方。

如图1所示，该方法包括如下的步骤S110至步骤S150：

步骤S110：接收N个数据提供方提供的加密数据集，其中，N≥2，N为整数。

数据提供方至少包括两个，例如两家不同的公司或机构。训练任务发起方既可以是其中一个数据提供方，也可以是独立的第三方。

每个数据提供方具有各自的原始数据集，原始数据集在数据提供方中加密后得到加密数据集，将加密数据集传输至模型训练方的可信执行环境中预设的用于进行模型训练的飞地中。原始数据集采用非对称加密的方式进行加密。

数据提供方会生成一对第二非对称密钥，其中公钥记为P_a，私钥记为S_a。可以理解的是，每个数据提供方生成的第二非对称密钥均不相同，可以记第i个数据提供方生成的第二非对称密钥的公钥为P_ai，私钥记为S_ai。对数据提供方来说，采用公钥P_a对原始数据集进行加密，即可得到加密数据集。

由于模型训练方需要对接收的加密数据集进行解密，模型训练方需要获取每个第二非对称密钥的私钥S_ai。为防止第二非对称密钥的私钥S_ai在传输的过程中被非法窃取或外泄，本实施例中，先对每个第二非对称密钥的私钥S_ai进行非对称加密得到加密私钥S^’ _ai，然后将加密私钥S^’ _ai传输到模型训练方的可信执行环境中预设的用于进行模型训练的飞地中进行后续流程。

模型训练方在飞地中生成一对第一非对称密钥，其中公钥记为P_t，私钥记为S_t，然后将所述公钥P_t发送给数据提供方，以使所述数据提供方使用所述公钥P_t对数据提供方自身生成的第二非对称密钥的私钥S_a进行加密得到加密私钥S^’ _a。

模型训练方接收N个数据提供方传输的N个加密私钥S^’ _a，并传入飞地中。最后，在飞地中，通过私钥S_t对N个所述加密私钥S^’ _a进行解密，获得N个第二非对称密钥的私钥S_a。

进一步地，为保证数据提供方提供的原始数据只会被用于模型训练，而不会在模型训练方的可信执行环境中被挪作他用，数据提供方在对原始数据集进行加密时，还会生成数据授权。

本实施例中，所述数据授权为数据提供方采用第二非对称密钥的私钥S_a对预设信息的签名，其中，所述预设信息包括公钥P_t和所述飞地的哈希值Hpred。用于进行模型训练的飞地的哈希值Hpred由模型训练方传输给每个数据提供方。

数据提供方会将加密数据集和数据授权传输至模型训练方。在模型训练方的可信执行环境中预设的用于进行模型训练的飞地中分别验证每个数据授权的合法性，即每个数据授权是否为期望的公钥P_t和用于进行模型训练的飞地的哈希值Hpred。

若每个数据授权都验证合法，则继续执行后续的模型训练流程；若至少一个数据授权验证非法，则中止模型训练的后续流程。

本实施例中，所述原始数据集中的数据按照数据id进行排序，例如，可以按照数据id进行升序排序，或者进行降序排序。

由于飞地的内存有限，为提升运算处理速度，原始数据集中的数据按照数据id进行排序后，数据提供方每次按照数据id顺序将原始数据文件按行读入，当读入的数据到达一定的大小后进行打包，并对打包文件通过公钥P_a进行加密，然后将加密后的打包文件发送给模型训练方；以此类推，直至该数据提供方中的原始数据所有行都处理完成。这样，在飞地内处理打包文件的速度更快。

步骤S120：对所述N个加密数据集分别进行解密，获得N个原始数据集。

具体包括：使用N个第二非对称密钥的私钥S_a对应对N个加密数据集进行解密，获得N个原始数据集。

步骤S130：对N个所述原始数据集中的数据进行融合处理，获得训练数据集。

具体的，可以根据数据id进行数据融合，获得融合数据集。由于飞地的内存有限，排序后数据按照数据id融合可以提高效率。

步骤S140：利用所述训练数据集训练所述XGBoost模型，获得训练完成的功能模型。

步骤S150：将所述功能模型加密后发送给训练任务发起方。

具体的，使用所述训练任务发起方生成的公钥P_c对所述功能模型加密。若任务发起方为独立的第三方，则任务发起方需要将其生成的公钥P_c传输给模型训练方，由模型训练方在飞地中使用公钥P_c对功能模型进行加密。

若任务发起方为第m个数据提供方，则模型训练方可以直接在飞地中根据第m个数据提供方的私钥S_am计算生成对应的公钥P_am，该公钥P_am即为公钥P_c。

训练任务发起方接收该加密的功能模型后，使用对应的私钥S_c对其进行解密即可获得功能模型。

综上，本实施例提供的方法，在模型训练方的可信执行环境中预设的用于进行模型训练的飞地中先对数据提供方提供的加密数据集进行解密后获得多个原始数据集，对原始数据集进行融合后获得训练数据集，再利用训练数据集训练XGBoost模型，获得训练完成的功能模型，最后将加密后的功能模型发送给训练任务发起方，整个模型训练过程中，原始数据和功能模型的隐私和安全性始终得到保护。

并且，本实施例提供的模型训练方法应用领域和使用场景广泛，具有极高的商业推广价值。

基于相同的发明构思，本实施例还提供了一种基于SGX和XGBoost的模型训练系统，该系统运行于模型训练方的可信执行环境中预设的用于进行模型训练的飞地中。如图2所示，所述系统包括：

接收模块201，用于接收N个数据提供方提供的加密数据集，其中，N≥2，N为整数；

解密模块202，用于对所述N个加密数据集分别进行解密，获得N个原始数据集；

融合模块203，用于对N个所述原始数据集中的数据进行融合处理，获得训练数据集；

训练模块204，用于利用所述训练数据集训练所述XGBoost模型，获得训练完成的功能模型；

发送模块205，用于将所述功能模型加密后发送给训练任务发起方。

进一步地，本发明实施例还提供了一种可读存储介质，存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：上述基于SGX和XGBoost的模型训练方法。

所述计算机可读存储介质可以是前述实施例所述的后台服务器的内部存储单元，例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备，例如所述系统上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于SGX和XGBoost的模型训练方法，其特征在于，该方法应用于模型训练方的可信执行环境中预设的用于进行模型训练的飞地中，所述飞地中配置有XGBoost模型，所述方法包括：

对所述N个加密数据集分别进行解密，获得N个原始数据集；

将所述功能模型加密后发送给训练任务发起方。

2.如权利要求1所述的一种基于SGX和XGBoost的模型训练方法，其特征在于，在接收N个数据提供方提供的加密数据集之前，所述方法还包括：

生成一对第一非对称密钥，其中公钥记为P_t，私钥记为S_t；

接收N个数据提供方传输的N个加密私钥S^’ _a；

3.如权利要求2所述的一种基于SGX和XGBoost的模型训练方法，其特征在于，所述加密数据集由所述数据提供方通过第二非对称密钥的公钥P_a对所述原始数据集加密后获得。

4.如权利要求3所述的一种基于SGX和XGBoost的模型训练方法，其特征在于，对所述N个加密数据集分别进行解密，获得N个原始数据集，包括：

5.如权利要求3所述的一种基于SGX和XGBoost的模型训练方法，其特征在于，在接收N个数据提供方提供的加密数据集之后，所述方法还包括：

6.如权利要求5所述的一种基于SGX和XGBoost的模型训练方法，其特征在于，验证每个所述加密数据集的数据授权的合法性，若至少一个数据授权验证非法，中止模型训练。

7.如权利要求1所述的一种基于SGX和XGBoost的模型训练方法，其特征在于，所述原始数据集中的数据按照数据id进行排序。

8.如权利要求1所述的一种基于SGX和XGBoost的模型训练方法，其特征在于，使用所述训练任务发起方生成的公钥P_c对所述功能模型加密。

9.一种基于SGX和XGBoost的模型训练系统，其特征在于，该系统运行于模型训练方的可信执行环境中预设的用于进行模型训练的飞地中，所述系统包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。