CN114048804B - 一种分类模型训练方法及装置 - Google Patents
一种分类模型训练方法及装置 Download PDFInfo
- Publication number
- CN114048804B CN114048804B CN202111309080.5A CN202111309080A CN114048804B CN 114048804 B CN114048804 B CN 114048804B CN 202111309080 A CN202111309080 A CN 202111309080A CN 114048804 B CN114048804 B CN 114048804B
- Authority
- CN
- China
- Prior art keywords
- interpretation
- test statistic
- variable
- classification model
- variables
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012360 testing method Methods 0.000 claims abstract description 131
- 230000004044 response Effects 0.000 claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000010276 construction Methods 0.000 claims abstract description 9
- 238000012795 verification Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 8
- 238000010998 test method Methods 0.000 claims description 5
- 238000001558 permutation test Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 17
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种分类模型训练方法及装置,其中,该方法包括:从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;根据该有标签参与方的响应变量和该无标签参与方的解释变量构造检验统计量;根据该检验统计量确定该样本数据集的分类模型的分割准则,以完成对该分类模型的训练,可以解决相关技术中联邦学习框架下的联合建模,为了避免信息泄露增加了计算成本且计算速度慢的问题,通过安全多方秘密共享,在实现数据隐私保护的前提下,进行分类模型的训练,实现了保护数据隐私的分类模型构建。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种分类模型训练方法及装置。
背景技术
常规用联邦学习框架下的联合建模,变量一般需要进行离散化分箱,并计算woe值,在当前的技术框架下,纵向联邦的联合建模实现,对于无标签方是有可能根据结果反推标签变量的值,造成信息泄露的,这就还需要单独开发一个可以安全、无泄漏的计算模块,会增加计算成本,以及计算速度减慢,造成算法适应有局限性。
针对相关技术中联邦学习框架下的联合建模,为了避免信息泄露增加了计算成本且计算速度慢的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种分类模型训练方法及装置,以至少解决相关技术中联邦学习框架下的联合建模,为了避免信息泄露增加了计算成本且计算速度慢的问题。
根据本发明的一个实施例,提供了一种分类模型训练方法,包括:
从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;
根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;
根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练。
可选地,根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练包括:
基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值;
根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则,以完成对所述分类模型的训练。
可选地,根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则,以完成对所述分类模型的训练包括:
根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量;
将所述目标解释变量作为分割点对所述样本数据集进行分割,得到所述分类模型的分类准则,以完成对所述分类模型的训练。
可选地,根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量包括:
确定所述假设校验值中最小值对应的解释变量为所述目标解释变量。
可选地,基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值包括:
在零假设下对所述检验统计量的分布进行估计,得到所述检验统计量的分布估计;
根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。
可选地,所述方法还包括:
通过以下方式,根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值:
其中,Pj为解释变量j的假设校验值,Tj(Ln,ω)为所述检验统计量,c(·)表示为所述检验统计量映射到实数域的观察估计值,μj,Σj为所述检验统计量的期望和方差的估计,表示所述检验统计量的分布估计,S(Ln,ω)为所述样本数据集。
可选地,所述方法还包括:
通过以下方式,根据有标签参与方的响应变量和无标签参与方的解释变量构造检验统计量:
Ln=(Yi,X1i,...,Xmi),i=1,...,n;
Ln为所述有标签参与方与所述无标签参与方的样本数据,Y为所述响应变量,ω表示权重参数,X为所述解释变量,gi为所述解释变量的一种非随机变换,h为影响函数,vec()为一个算子。
根据本发明的另一个实施例,还提供了一种分类模型训练装置,包括:
获取模块,用于从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;
构造模块,用于根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;
确定模块,用于根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练。
可选地,所述确定模块包括:
第一确定子模块,用于基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值;
第二确定子模块,用于根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则,以完成对所述分类模型的训练。
可选地,所述第二确定子模块包括:
选择单元,用于根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量;
分割单元,用于将所述目标解释变量作为分割点对所述样本数据集进行分割,得到所述分类模型的分类准则,以完成对所述分类模型的训练。
可选地,所述选择单元,还用于:
确定所述假设校验值中最小值对应的解释变量为所述目标解释变量。
可选地,所述第一确定子模块包括:
估计单元,用于在零假设下对所述检验统计量的分布进行估计,得到所述检验统计量的分布估计;
确定单元,用于根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。
可选地,所述确定单元,还用于通过以下方式,根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值:
其中,Pj为解释变量j的假设校验值,Tj(Ln,ω)为所述检验统计量,c(·)表示为所述检验统计量映射到实数域的观察估计值,μj,Σj为所述检验统计量的期望和方差的估计,表示所述检验统计量的分布估计,S(Ln,ω)为所述样本数据集。
可选地,所述构造模块,还用于通过以下方式,根据有标签参与方的响应变量和无标签参与方的解释变量构造检验统计量:
Ln=(Yi,X1i,...,Xmi),i=1,...,n;
Ln为所述有标签参与方与所述无标签参与方的样本数据,Y为所述响应变量,ω表示权重参数,X为所述解释变量,gi为所述解释变量的一种非随机变换,h为影响函数,vec()为一个算子。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练,可以解决相关技术中联邦学习框架下的联合建模,为了避免信息泄露增加了计算成本且计算速度慢的问题,通过安全多方秘密共享,在实现数据隐私保护的前提下,进行分类模型的训练,实现了保护数据隐私的分类模型构建。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的分类模型训练方法的移动终端的硬件结构框图;
图2是根据本发明实施例的分类模型训练方法的流程图;
图3是根据本发明实施例的分类模型训练装置的框图;
图4是根据本发明可选实施例的分类模型训练装置的框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的分类模型训练方法的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的分类模型训练方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端或网络架构的分类模型训练方法,图2是根据本发明实施例的分类模型训练方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;
步骤S204,根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;
上述步骤S204具体可以通过以下方式,构造检验统计量:
Ln=(Yi,X1i,...,Xmi),i=1,...,n;
Ln为所述有标签参与方与所述无标签参与方的样本数据,Y为所述响应变量,ω表示权重参数,X为所述解释变量,gi为所述解释变量的一种非随机变换,h为影响函数,vec()为一个算子。
步骤S206,根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练。
通过上述步骤S202至S206,可以解决相关技术中联邦学习框架下的联合建模,为了避免信息泄露增加了计算成本且计算速度慢的问题,通过安全多方秘密共享,在实现数据隐私保护的前提下,进行分类模型的训练,实现了保护数据隐私的分类模型构建。
本发明实施例中,上述步骤S206具体可以包括:
S2061,基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值;
进一步地,上述S2061具体可以包括:在零假设下对所述检验统计量的分布进行估计,得到所述检验统计量的分布估计,具体的,通过以下方式,根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值:
其中,Pj为解释变量j的假设校验值,Tj(Ln,ω)为所述检验统计量,c(·)表示为所述检验统计量映射到实数域的观察估计值,μj,Σj为所述检验统计量的期望和方差的估计,/>表示所述检验统计量的分布估计,S(Ln,ω)为所述样本数据集;根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。
S2062,根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则,以完成对所述分类模型的训练。
进一步地,上述S2062具体可以包括:
根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量,具体的,确定所述假设校验值中最小值对应的解释变量为所述目标解释变量;
将所述目标解释变量作为分割点对所述样本数据集进行分割,得到所述分类模型的分类准则,以完成对所述分类模型的训练。
本发明实施例在安全多方计算框架下实现私密条件推断树模型,主要是有标签参与方和无标签参与方共同完成条件推断树算法的模型训练,同时保持双方隐私数据得到保护无泄漏。
设有标签参与方的样本数据为L1=(Yi,X1i,...,Xmi),i=1,...,n1,其中Yi为响应变量,X·i解释变量,(Yi,X1i,...,Xmi)∈Rm+1表示有标签参与方第i个样本;无标签参与方的样本数据设为L2=(X'1j,...,X'pj),j=1,...,n2,无标签参与方样本数据只有解释变量X·j,其中(X'1j,...,X'pj)∈Rp表示第无标签参与方的第j个样本。按照以下流程进行计算:
(1)对双方数据进行随机拆分,将各自持有的每个数据都拆分为两个子秘密,有标签参与方持有Yi-Ri,Ri,其中Ri都表示是随机数,无标签参与方持有(X'1j-r'1j,…,X'pj-r'pj),(r'1j,…,r'pj),其中(r'1j,…,r'pj)也都表示是随机数。
(2)按照秘密共享的方法对子秘密进行共享,双方交换随机分量。交换后有标签参与方持有包含响应变量和解释变量的子秘密Yi-Ri,(X'1j-r'1j,…,X'pj-r'pj),无标签参与方持同样持有包含有响应变量和解释变量的子秘密Ri,(r'1j,…,r'pj)。
(3)在秘密共享的状态下,将条件推断树的检验统计量作为秘密共享技术中的约定函数,各自进行子秘密所对应的条件推断树的检验统计量的计算。其中条件推断树的检验统计量的形式:Ln=(Yi,X1i,...,Xmi),i=1,...,n;Ln为所述有标签参与方与所述无标签参与方的样本数据,其中gi为解释变量的一种非随机变,换ωi表示权重参数,h称为影响函数,是一种依赖于响应变量的置换组合的一种映射变换,定义vec()为一个算子,将pj*q的矩阵按列排序转换为pjq维的向量;将检验统计量计算所需的响应变量和解释变量替换各参与持有的子秘密,所得的计算结果为检验统计量的子秘密,记为T1,T2。
(4)根据秘密共享技术中的恢复函数,记为g(·),(t'1,...,t'p)=g(T1,T2)恢复计算得到约定函数的计算值,即本方案中即为检验统计量的值,对应无标签参与方的n2个解释变量,根据秘密共享技术的特点,在计算过程中,双方除了得到最终计算的结果值,本身的数据不会造成泄露。
(5)对于有标签参与方的n1个解释变量,可以直接在本地计算得到相应的检验统计量(t1,...,tm)。
(6)根据条件推断树中所采用的置换检验方法,对于每个解释变量,样本数据被二分割为两个子集来进行假设检验的统计推断,来检验响应变量和解释变量之间的关联性,假设检验的零假设为当前解释变量和响应变量相互独立,备择假设为当前解释变量和相应变量相互独立;当前有标签参与方持有(t1,...,tm)和(t'1,...,t'p)=g(T1,T2),可对每个解释变量的检验统计量分布进行估计,进而求得对应的假设检验p值为:
其中,c(·)表示为检验统计量映射到实数域的观察估计值,μj,Σj为检验统计量的期望和方差的估计,表示零假设下检验统计量的分布;选择p值最小的二分割点。
(7)对比每个解释变量的p值,选择p值最小即选择与响应变量最显著的解释变量,用其分割点对全体样本数据集进行分割,当9p-值不再小于设定的阈值即所有解释变量的零假设都无法拒绝,即所有解释变量和响应变量都是相互独立的,那么停止树的分割,即完成当前分割模型的训练。
当前大多数场景下的分类问题一般采用逻辑回归或者一般决策树的C4.5、CART算法,但逻辑回归会对数据不平衡敏感,C4.5或者CART的决策树算法在选择分割变量时会有偏向性。本发明实施例选择额条件推断决策树对数据不平衡不敏感,而且因为其基于置换检验理论构造统计量进行变量的选择和分割,其变量选择具有无偏性,且具有良好的统计可解释性。选择条件推断决策树算法并结合基于秘密共享的安全多方计算技术来实现隐私保护的模型构建,不需要可信任的第三方,而是双方通过秘密的共享分割,计算再恢复来实现的,对于隐私数据保护会更安全。
根据本发明的另一个实施例,还提供了一种分类模型训练装置,图3是根据本发明实施例的分类模型训练装置的框图,如图3所示,包括:
获取模块32,用于从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;
构造模块34,用于根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;
确定模块36,用于根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练。
图4是根据本发明可选实施例的分类模型训练装置的框图,如图4所示,所述确定模块36包括:
第一确定子模块42,用于基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值;
第二确定子模块44,用于根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则,以完成对所述分类模型的训练。
可选地,所述第二确定子模块44包括:
选择单元,用于根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量;
分割单元,用于将所述目标解释变量作为分割点对所述样本数据集进行分割,得到所述分类模型的分类准则,以完成对所述分类模型的训练。
可选地,所述选择单元,还用于:
确定所述假设校验值中最小值对应的解释变量为所述目标解释变量。
可选地,所述第一确定子模块42包括:
估计单元,用于在零假设下对所述检验统计量的分布进行估计,得到所述检验统计量的分布估计;
确定单元,用于根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。
可选地,所述确定单元,还用于通过以下方式,根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值:
其中,Pj为解释变量j的假设校验值,Tj(Ln,ω)为所述检验统计量,c(·)表示为所述检验统计量映射到实数域的观察估计值,μj,Σj为所述检验统计量的期望和方差的估计,表示所述检验统计量的分布估计,S(Ln,ω)为所述样本数据集。
可选地,所述构造模块34,还用于通过以下方式,根据有标签参与方的响应变量和无标签参与方的解释变量构造检验统计量:
Ln=(Yi,X1i,...,Xmi),i=1,...,n;
Ln为所述有标签参与方与所述无标签参与方的样本数据,Y为所述响应变量,ω表示权重参数,X为所述解释变量,gi为所述解释变量的一种非随机变换,h为影响函数,vec()为一个算子。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;
S2,根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;
S3,根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;
S2,根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;
S3,根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种分类模型训练方法,其特征在于,包括:
从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;
通过以下方式,根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量:Ln=(Yi,X1i,...,Xmi),i=1,...,n;Ln为所述有标签参与方与所述无标签参与方的样本数据,Y为所述响应变量,ω表示权重参数,X为所述解释变量,gi为所述解释变量的一种非随机变换,h为影响函数,vec()为一个算子;
根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练,包括:
基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值;
根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分割准则,以完成对所述分类模型的训练,包括:根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量;将所述目标解释变量作为分割点对所述样本数据集进行分割,得到所述分类模型的分割准则,以完成对所述分类模型的训练。
2.根据权利要求1所述的方法,其特征在于,根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量最显著的目标解释变量包括:
确定所述假设校验值中最小值对应的解释变量为所述目标解释变量。
3.根据权利要求1所述的方法,其特征在于,基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值包括:
在零假设下对所述检验统计量的分布进行估计,得到所述检验统计量的分布估计;
根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过以下方式,根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值:
其中,Pj为解释变量j的假设校验值,Tj(Ln,ω)为所述检验统计量,c(·)表示为所述检验统计量映射到实数域的观察估计值,μj,Σj为所述检验统计量的期望和方差的估计,表示所述检验统计量的分布估计,S(Ln,ω)为所述样本数据集。
5.一种分类模型训练装置,其特征在于,包括:
获取模块,用于从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;
构造模块,用于根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;
确定模块,用于根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练;
其中,所述确定模块包括:
第一确定子模块,用于基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值;
第二确定子模块,用于根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分割准则,以完成对所述分类模型的训练;
其中,所述第二确定子模块包括:
选择单元,用于根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量;
分割单元,用于将所述目标解释变量作为分割点对所述样本数据集进行分割,得到所述分类模型的分割准则,以完成对所述分类模型的训练;
其中,所述构造模块,还用于通过以下方式,根据有标签参与方的响应变量和无标签参与方的解释变量构造检验统计量:
Ln=(Yi,X1i,...,Xmi),i=1,...,n;
Ln为所述有标签参与方与所述无标签参与方的样本数据,Y为所述响应变量,ω表示权重参数,X为所述解释变量,gi为所述解释变量的一种非随机变换,h为影响函数,vec()为一个算子。
6.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。
7.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111309080.5A CN114048804B (zh) | 2021-11-05 | 2021-11-05 | 一种分类模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111309080.5A CN114048804B (zh) | 2021-11-05 | 2021-11-05 | 一种分类模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114048804A CN114048804A (zh) | 2022-02-15 |
CN114048804B true CN114048804B (zh) | 2024-04-16 |
Family
ID=80207500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111309080.5A Active CN114048804B (zh) | 2021-11-05 | 2021-11-05 | 一种分类模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048804B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506922A (zh) * | 2020-04-17 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 多方联合对隐私数据进行显著性检验的方法和装置 |
CN111523675A (zh) * | 2019-02-01 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 模型训练方法、装置及系统 |
CN112183730A (zh) * | 2020-10-14 | 2021-01-05 | 浙江大学 | 一种基于共享学习的神经网络模型的训练方法 |
CN113570069A (zh) * | 2021-07-28 | 2021-10-29 | 神谱科技(上海)有限公司 | 基于安全联邦学习的自适应启动模型训练的模型评估方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10910087B2 (en) * | 2017-06-27 | 2021-02-02 | Hyunghoon Cho | Secure secret-sharing-based crowdsourcing for large-scale association studies of genomic and phenotypic data |
-
2021
- 2021-11-05 CN CN202111309080.5A patent/CN114048804B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523675A (zh) * | 2019-02-01 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 模型训练方法、装置及系统 |
CN111506922A (zh) * | 2020-04-17 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 多方联合对隐私数据进行显著性检验的方法和装置 |
CN112183730A (zh) * | 2020-10-14 | 2021-01-05 | 浙江大学 | 一种基于共享学习的神经网络模型的训练方法 |
CN113570069A (zh) * | 2021-07-28 | 2021-10-29 | 神谱科技(上海)有限公司 | 基于安全联邦学习的自适应启动模型训练的模型评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114048804A (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950638B (zh) | 基于模型蒸馏的图像分类方法、装置和电子设备 | |
CN109002861B (zh) | 联邦建模方法、设备及存储介质 | |
US11003991B2 (en) | Methods for secure learning of parameters of a convolution neural network, and for secure input data classification | |
CN111814977B (zh) | 训练事件预测模型的方法及装置 | |
CN111967615B (zh) | 基于特征抽取的多模型训练方法及设备、电子设备和介质 | |
CN110427969B (zh) | 数据处理方法、装置和电子设备 | |
CN111125727B (zh) | 混淆电路生成方法、预测结果确定方法、装置和电子设备 | |
CN110210233B (zh) | 预测模型的联合构建方法、装置、存储介质及计算机设备 | |
CN111428887B (zh) | 一种基于多个计算节点的模型训练控制方法、装置及系统 | |
CN113505882B (zh) | 基于联邦神经网络模型的数据处理方法、相关设备及介质 | |
CN110414567A (zh) | 数据处理方法、装置和电子设备 | |
US12100173B2 (en) | Method and system for unsupervised prediction of image depth and confidence map | |
US12131520B2 (en) | Methods, devices, and computer readable storage media for image processing | |
CN113051239A (zh) | 数据共享方法、应用其的模型的使用方法及相关设备 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN114936377A (zh) | 模型训练和身份匿名化方法、装置、设备及存储介质 | |
CN111079153A (zh) | 安全建模方法、装置、电子设备及存储介质 | |
CN114048804B (zh) | 一种分类模型训练方法及装置 | |
CN114329127B (zh) | 特征分箱方法、装置及存储介质 | |
CN116187431A (zh) | 面向非独立同分布场景的联邦学习蒸馏方法及装置 | |
CN108400887B (zh) | 符号网络的结构识别方法及装置 | |
CN116306905A (zh) | 半监督非独立同分布的联邦学习蒸馏方法及装置 | |
CN113468604A (zh) | 基于人工智能的大数据隐私信息解析方法及系统 | |
CN113886547A (zh) | 基于人工智能的客户实时对话转接方法、装置和电子设备 | |
CN113946758B (zh) | 一种数据识别方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |