CN114048804B

CN114048804B - 一种分类模型训练方法及装置

Info

Publication number: CN114048804B
Application number: CN202111309080.5A
Authority: CN
Inventors: 张明锐; 李琨; 田江; 向小佳; 丁永建; 李璠
Original assignee: Everbright Technology Co ltd
Current assignee: Everbright Technology Co ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2024-04-16
Anticipated expiration: 2041-11-05
Also published as: CN114048804A

Abstract

本发明提供了一种分类模型训练方法及装置，其中，该方法包括：从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量；根据该有标签参与方的响应变量和该无标签参与方的解释变量构造检验统计量；根据该检验统计量确定该样本数据集的分类模型的分割准则，以完成对该分类模型的训练，可以解决相关技术中联邦学习框架下的联合建模，为了避免信息泄露增加了计算成本且计算速度慢的问题，通过安全多方秘密共享，在实现数据隐私保护的前提下，进行分类模型的训练，实现了保护数据隐私的分类模型构建。

Description

一种分类模型训练方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种分类模型训练方法及装置。

背景技术

常规用联邦学习框架下的联合建模，变量一般需要进行离散化分箱，并计算woe值，在当前的技术框架下，纵向联邦的联合建模实现，对于无标签方是有可能根据结果反推标签变量的值，造成信息泄露的，这就还需要单独开发一个可以安全、无泄漏的计算模块，会增加计算成本，以及计算速度减慢，造成算法适应有局限性。

针对相关技术中联邦学习框架下的联合建模，为了避免信息泄露增加了计算成本且计算速度慢的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种分类模型训练方法及装置，以至少解决相关技术中联邦学习框架下的联合建模，为了避免信息泄露增加了计算成本且计算速度慢的问题。

根据本发明的一个实施例，提供了一种分类模型训练方法，包括：

从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量；

根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量；

根据所述检验统计量确定所述样本数据集的分类模型的分割准则，以完成对所述分类模型的训练。

可选地，根据所述检验统计量确定所述样本数据集的分类模型的分割准则，以完成对所述分类模型的训练包括：

基于置换检验方法，通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值；

根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则，以完成对所述分类模型的训练。

可选地，根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则，以完成对所述分类模型的训练包括：

根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量；

将所述目标解释变量作为分割点对所述样本数据集进行分割，得到所述分类模型的分类准则，以完成对所述分类模型的训练。

可选地，根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量包括：

确定所述假设校验值中最小值对应的解释变量为所述目标解释变量。

可选地，基于置换检验方法，通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值包括：

在零假设下对所述检验统计量的分布进行估计，得到所述检验统计量的分布估计；

根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。

可选地，所述方法还包括：

通过以下方式，根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值：

其中，P_j为解释变量j的假设校验值，T_j(L_n,ω)为所述检验统计量，c(·)表示为所述检验统计量映射到实数域的观察估计值，μ_j,Σ_j为所述检验统计量的期望和方差的估计，表示所述检验统计量的分布估计，S(L_n,ω)为所述样本数据集。

可选地，所述方法还包括：

通过以下方式，根据有标签参与方的响应变量和无标签参与方的解释变量构造检验统计量：

L_n＝(Y_i,X_1i,...,X_mi),i＝1,...,n；

L_n为所述有标签参与方与所述无标签参与方的样本数据，Y为所述响应变量，ω表示权重参数，X为所述解释变量，g_i为所述解释变量的一种非随机变换，h为影响函数，vec()为一个算子。

根据本发明的另一个实施例，还提供了一种分类模型训练装置，包括：

获取模块，用于从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量；

构造模块，用于根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量；

确定模块，用于根据所述检验统计量确定所述样本数据集的分类模型的分割准则，以完成对所述分类模型的训练。

可选地，所述确定模块包括：

第一确定子模块，用于基于置换检验方法，通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值；

第二确定子模块，用于根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则，以完成对所述分类模型的训练。

可选地，所述第二确定子模块包括：

选择单元，用于根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量；

分割单元，用于将所述目标解释变量作为分割点对所述样本数据集进行分割，得到所述分类模型的分类准则，以完成对所述分类模型的训练。

可选地，所述选择单元，还用于：

可选地，所述第一确定子模块包括：

估计单元，用于在零假设下对所述检验统计量的分布进行估计，得到所述检验统计量的分布估计；

确定单元，用于根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。

可选地，所述确定单元，还用于通过以下方式，根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值：

可选地，所述构造模块，还用于通过以下方式，根据有标签参与方的响应变量和无标签参与方的解释变量构造检验统计量：

L_n＝(Y_i,X_1i,...,X_mi),i＝1,...,n；

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量；根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量；根据所述检验统计量确定所述样本数据集的分类模型的分割准则，以完成对所述分类模型的训练，可以解决相关技术中联邦学习框架下的联合建模，为了避免信息泄露增加了计算成本且计算速度慢的问题，通过安全多方秘密共享，在实现数据隐私保护的前提下，进行分类模型的训练，实现了保护数据隐私的分类模型构建。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的分类模型训练方法的移动终端的硬件结构框图；

图2是根据本发明实施例的分类模型训练方法的流程图；

图3是根据本发明实施例的分类模型训练装置的框图；

图4是根据本发明可选实施例的分类模型训练装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的分类模型训练方法的移动终端的硬件结构框图，如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的分类模型训练方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的分类模型训练方法，图2是根据本发明实施例的分类模型训练方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量；

步骤S204，根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量；

上述步骤S204具体可以通过以下方式，构造检验统计量：

L_n＝(Y_i,X_1i,...,X_mi),i＝1,...,n；

步骤S206，根据所述检验统计量确定所述样本数据集的分类模型的分割准则，以完成对所述分类模型的训练。

通过上述步骤S202至S206，可以解决相关技术中联邦学习框架下的联合建模，为了避免信息泄露增加了计算成本且计算速度慢的问题，通过安全多方秘密共享，在实现数据隐私保护的前提下，进行分类模型的训练，实现了保护数据隐私的分类模型构建。

本发明实施例中，上述步骤S206具体可以包括：

S2061，基于置换检验方法，通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值；

进一步地，上述S2061具体可以包括：在零假设下对所述检验统计量的分布进行估计，得到所述检验统计量的分布估计，具体的，通过以下方式，根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值：

其中，P_j为解释变量j的假设校验值，T_j(L_n,ω)为所述检验统计量，c(·)表示为所述检验统计量映射到实数域的观察估计值，μ_j,Σ_j为所述检验统计量的期望和方差的估计，/>表示所述检验统计量的分布估计，S(L_n,ω)为所述样本数据集；根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。

S2062，根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则，以完成对所述分类模型的训练。

进一步地，上述S2062具体可以包括：

根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量，具体的，确定所述假设校验值中最小值对应的解释变量为所述目标解释变量；

本发明实施例在安全多方计算框架下实现私密条件推断树模型，主要是有标签参与方和无标签参与方共同完成条件推断树算法的模型训练，同时保持双方隐私数据得到保护无泄漏。

设有标签参与方的样本数据为L₁＝(Y_i，X_1i，...，X_mi)，i＝1，...，n₁，其中Y_i为响应变量，X_·i解释变量，(Y_i,X_1i,...,X_mi)∈R^m+1表示有标签参与方第i个样本；无标签参与方的样本数据设为L₂＝(X'_1j,...,X'_pj),j＝1,...,n₂,无标签参与方样本数据只有解释变量X_·j，其中(X'_1j,...,X'_pj)∈R^p表示第无标签参与方的第j个样本。按照以下流程进行计算：

(1)对双方数据进行随机拆分，将各自持有的每个数据都拆分为两个子秘密，有标签参与方持有Y_i-R_i，R_i，其中R_i都表示是随机数，无标签参与方持有(X'_1j-r'_1j,…,X'_pj-r'_pj)，(r'_1j,…,r'_pj)，其中(r'_1j,…,r'_pj)也都表示是随机数。

(2)按照秘密共享的方法对子秘密进行共享，双方交换随机分量。交换后有标签参与方持有包含响应变量和解释变量的子秘密Y_i-R_i，(X'_1j-r'_1j,…,X'_pj-r'_pj)，无标签参与方持同样持有包含有响应变量和解释变量的子秘密R_i，(r'_1j,…,r'_pj)。

(3)在秘密共享的状态下，将条件推断树的检验统计量作为秘密共享技术中的约定函数，各自进行子秘密所对应的条件推断树的检验统计量的计算。其中条件推断树的检验统计量的形式：L_n＝(Y_i，X_1i，...，X_mi)，i＝1，...，n；L_n为所述有标签参与方与所述无标签参与方的样本数据，其中g_i为解释变量的一种非随机变，换ω_i表示权重参数，h称为影响函数，是一种依赖于响应变量的置换组合的一种映射变换，定义vec()为一个算子，将p_j*q的矩阵按列排序转换为p_jq维的向量；将检验统计量计算所需的响应变量和解释变量替换各参与持有的子秘密，所得的计算结果为检验统计量的子秘密，记为T₁,T₂。

(4)根据秘密共享技术中的恢复函数，记为g(·)，(t'₁,...,t'_p)＝g(T₁,T₂)恢复计算得到约定函数的计算值，即本方案中即为检验统计量的值，对应无标签参与方的n₂个解释变量，根据秘密共享技术的特点，在计算过程中，双方除了得到最终计算的结果值，本身的数据不会造成泄露。

(5)对于有标签参与方的n₁个解释变量，可以直接在本地计算得到相应的检验统计量(t₁,...,t_m)。

(6)根据条件推断树中所采用的置换检验方法，对于每个解释变量，样本数据被二分割为两个子集来进行假设检验的统计推断，来检验响应变量和解释变量之间的关联性，假设检验的零假设为当前解释变量和响应变量相互独立，备择假设为当前解释变量和相应变量相互独立；当前有标签参与方持有(t₁,...,t_m)和(t'₁,...,t'_p)＝g(T₁,T₂)，可对每个解释变量的检验统计量分布进行估计，进而求得对应的假设检验p值为：

其中，c(·)表示为检验统计量映射到实数域的观察估计值，μ_j,Σ_j为检验统计量的期望和方差的估计，表示零假设下检验统计量的分布；选择p值最小的二分割点。

(7)对比每个解释变量的p值，选择p值最小即选择与响应变量最显著的解释变量，用其分割点对全体样本数据集进行分割，当9p-值不再小于设定的阈值即所有解释变量的零假设都无法拒绝，即所有解释变量和响应变量都是相互独立的，那么停止树的分割，即完成当前分割模型的训练。

当前大多数场景下的分类问题一般采用逻辑回归或者一般决策树的C4.5、CART算法，但逻辑回归会对数据不平衡敏感，C4.5或者CART的决策树算法在选择分割变量时会有偏向性。本发明实施例选择额条件推断决策树对数据不平衡不敏感，而且因为其基于置换检验理论构造统计量进行变量的选择和分割，其变量选择具有无偏性，且具有良好的统计可解释性。选择条件推断决策树算法并结合基于秘密共享的安全多方计算技术来实现隐私保护的模型构建，不需要可信任的第三方，而是双方通过秘密的共享分割，计算再恢复来实现的，对于隐私数据保护会更安全。

根据本发明的另一个实施例，还提供了一种分类模型训练装置，图3是根据本发明实施例的分类模型训练装置的框图，如图3所示，包括：

获取模块32，用于从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量；

构造模块34，用于根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量；

确定模块36，用于根据所述检验统计量确定所述样本数据集的分类模型的分割准则，以完成对所述分类模型的训练。

图4是根据本发明可选实施例的分类模型训练装置的框图，如图4所示，所述确定模块36包括：

第一确定子模块42，用于基于置换检验方法，通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值；

第二确定子模块44，用于根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则，以完成对所述分类模型的训练。

可选地，所述第二确定子模块44包括：

可选地，所述选择单元，还用于：

可选地，所述第一确定子模块42包括：

可选地，所述构造模块34，还用于通过以下方式，根据有标签参与方的响应变量和无标签参与方的解释变量构造检验统计量：

L_n＝(Y_i,X_1i,...,X_mi),i＝1,...,n；

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量；

S2，根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量；

S3，根据所述检验统计量确定所述样本数据集的分类模型的分割准则，以完成对所述分类模型的训练。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分类模型训练方法，其特征在于，包括：

通过以下方式，根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量：L_n＝(Y_i,X_1i,...,X_mi),i＝1,...,n；L_n为所述有标签参与方与所述无标签参与方的样本数据，Y为所述响应变量，ω表示权重参数，X为所述解释变量，g_i为所述解释变量的一种非随机变换，h为影响函数，vec()为一个算子；

根据所述检验统计量确定所述样本数据集的分类模型的分割准则，以完成对所述分类模型的训练，包括：

根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分割准则，以完成对所述分类模型的训练，包括：根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量；将所述目标解释变量作为分割点对所述样本数据集进行分割，得到所述分类模型的分割准则，以完成对所述分类模型的训练。

2.根据权利要求1所述的方法，其特征在于，根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量最显著的目标解释变量包括：

3.根据权利要求1所述的方法，其特征在于，基于置换检验方法，通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种分类模型训练装置，其特征在于，包括：

确定模块，用于根据所述检验统计量确定所述样本数据集的分类模型的分割准则，以完成对所述分类模型的训练；

其中，所述确定模块包括：

第二确定子模块，用于根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分割准则，以完成对所述分类模型的训练；

其中，所述第二确定子模块包括：

分割单元，用于将所述目标解释变量作为分割点对所述样本数据集进行分割，得到所述分类模型的分割准则，以完成对所述分类模型的训练；

其中，所述构造模块，还用于通过以下方式，根据有标签参与方的响应变量和无标签参与方的解释变量构造检验统计量：

L_n＝(Y_i,X_1i,...,X_mi),i＝1,...,n；

6.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4中任一项所述的方法。