CN111931241A - 基于隐私保护的线性回归特征显著性检验方法、装置 - Google Patents

基于隐私保护的线性回归特征显著性检验方法、装置 Download PDF

Info

Publication number
CN111931241A
CN111931241A CN202011010612.0A CN202011010612A CN111931241A CN 111931241 A CN111931241 A CN 111931241A CN 202011010612 A CN202011010612 A CN 202011010612A CN 111931241 A CN111931241 A CN 111931241A
Authority
CN
China
Prior art keywords
matrix
party
participant
regression
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011010612.0A
Other languages
English (en)
Other versions
CN111931241B (zh
Inventor
刘颖婷
陈超超
王力
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011010612.0A priority Critical patent/CN111931241B/zh
Publication of CN111931241A publication Critical patent/CN111931241A/zh
Application granted granted Critical
Publication of CN111931241B publication Critical patent/CN111931241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供一种基于隐私保护的线性回归特征显著性检验方法、装置。一个方法实施例中,可以实现基于隐私保护的回归特征的两方线性回归系数的显著性检验。利用本说明书实施例的t检验的隐私保护计算方法,可以筛选出检验结果为显著、更加适用的特征,实现各个参与方所使用的特征的隐私保护的同时,可以使得利用多方数据建立更加精准、可靠的运算模型。

Description

基于隐私保护的线性回归特征显著性检验方法、装置
技术领域
本说明书实施例属于密码学中多方安全计算的隐私保护技术领域,尤其涉及一种基于隐私保护的线性回归特征显著性检验方法、装置。
背景技术
目前多方参与的数据共享应用场景中,共享数据通常由多个参与方提供,各个参与方的私有数据保留在本地,不进行明文的聚合。多个参与方数据需要统一建立模型时,需保证参与方输出的输出结果为私有的,对其他参与方是不可见的。
在数据共享的应用场景中,多个参与方通常需要共同参与建立相应的模型。例如使用机器学习模型来进行模型预。所述的模型通常可以包括采用某种算法建立的回归方程。回归方程中通常包括应用场景下采集的多种特征信息。这些特征信息通常作为回归方程的自变量,预测对象作为回归方程的因变量。一般的,当自变量与因变量确实存在某种关系时,建立的回归方程才有意义,而目前构建回归方程使用的特征信息多种多样。因此,作为自变量的特征信息与作为因变量的预测对象是否有关,相关程度如何、能否作为回归方程使用的特征等对最终构建的模型的数据效果影响重大。
发明内容
本说明书的目的在于提供一种基于隐私保护的线性回归特征显著性检验方法、装置,可以在多方参与计算需要隐私保护的场景下,实现对回归特征的显著性检验。
本说明书实施例提供的一种基于隐私保护的线性回归特征显著性检验方法、装置至少通过以下方式实现:
一种基于隐私保护的线性回归特征显著性检验方法,包括:
设置回归特征的回归系数在t检验中的原假设为零,各参与方基于多方安全计算的线性回归训练确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值;
根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定的第二原始矩阵计算联合矩阵的对称矩阵的第一加法分片和第二加法分片;
基于所述第一加法分片和第二加法分片,两方联合计算隐私保护下的所述对称矩阵的逆矩阵的第一加法分片和第二加法分片;
基于所述逆矩阵的第一加法分片和第二加法分片、所述无偏估计值,第一参与方和第二参与方联合计算所述回归系数的标准差的第一加法分片和第二加法分片;
根据所述回归系数的标准差的第一加法分片和第二加法分片、回归系数的估计值计算回归特征的统计量;
根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
一种基于隐私保护的线性回归特征显著性检验方法,包括:
第一参与方基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
第一参与方获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定;
基于所述第一加法分片和第二参与方的第二加法分片,第一参与方通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,第一参与方通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
一种基于隐私保护的线性回归特征显著性检验装置,包括:
估计值计算模块,用于基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
联合矩阵处理模块,用于获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定;
逆矩阵处理模块,用于基于所述第一加法分片和第二参与方的第二加法分片,通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
标准差计算模块,用于基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
统计量计算模块,用于根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
显著性结果模块,用于根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
一种隐私保护的终端设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书中任意一个方法实施例所述的步骤。
一种存储介质,用于存储计算机可执行指令,处理器执行所述存储介质上的计算机可执行指令时实现本说明书中任意一个方法实施例所述的步骤。
本说明书实施例提供的一种基于隐私保护的线性回归特征显著性检验方法、装置,可以实现基于隐私保护的回归特征的两方线性回归系数的显著性检验。利用本说明书实施例的t检验的隐私保护计算方法,可以筛选出检验结果为显著、更加适用的特征,实现各个参与方所使用的特征的隐私保护的同时,使得利用多方数据建立更加精准、可靠的运算模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本说明书中一个原始数据纵向分布场景的应用场景示意图;
图2是本说明书中一个原始数据纵向横向场景的应用场景示意图;
图3是本说明书提供的一个基于隐私保护的线性回归特征显著性检验方法实施例的流程示意图;
图4是本说明书提供的可应用单个参与方的一个基于隐私保护的线性回归特征显著性检验方法实施例的流程示意图;
图5是应用本发明方法实施例的一个服务器的硬件结构示意框图;
图6是本说明书提供的一个基于隐私保护的线性回归特征显著性检验装置实施例的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都应当属于本说明书保护的范围。
在公司或企业进行业务运营时,通常会使用机器学习模型来进行模型预测,例如确定业务类别、业务运营风险或者进行业务运营决策。机器学习模型可以包括业务风险识别模型、业务分类模型、业务决策模型等等。机器学习模型通常会使用大量的模型特征作为模型输入特征。目前机器学习模型的模型特征通常是根据经验选择的。然而,在根据这种方式确定出的模型特征中,可能会存在对机器学习模型影响较低的模型特征,而这些模型特征的引入会增加机器学习模型的计算量,但对机器学习模型的预测精度很小,甚至没有影响。因此,一些场景中需要对机器学习模型使用的特征进行筛选,以从机器学习模型的模型特征集中筛除对机器学习模型影响较低的模型特征。
机器学习模型的特征数据可以来自于多个数据拥有方,例如,针对电子商务相关的机器学习模型,多个数据拥有方可以包括电子商务公司、快递公司和银行等等。各个数据拥有方可以拥有机器学习模型的特征数据中的部分数据。对于数据拥有方而言,数据是非常重要的资产。该多个数据拥有方希望共同使用彼此的特征数据来进行模型特征筛选,但又不想把各自的隐私数据提供给其它各个数据拥有方以防止自己的隐私数据泄露。
如前所述,目前多方参与的数据共享应用场景中,共享数据通常由多个参与方提供,各个参与方的私有数据保留在本地,不进行明文的聚合。多个参与方的私有数据需要统一建立模型时,需保证参与方输出的输出结果为私有的,对其他参与方是不可见的。同时,在一些场景下,各个参与方的参与模型构建或计算的一些或全部数据也需要进行隐私保护,不希望被其他参与方获知是使用了哪些特征参数或特征的取值等。而目前的一些隐私保护方案中对回归特征的显著性检验还未证实是否安全可靠,仍然存在一定的风险。尤其是参与方为两个参与方时,拿到联合计算结果的一方存在可以推出另一方的数据或估计值的风险。
一些应用场景中,构建的模型可以为回归方程,例如线性回归方程。回归方程中可以涉及多个参与方的一个或多个回归特征,回归特征可以作为方程的自变量参数,预测对象可以作为回归方程的因变量。而目前应用场景涉及的特征信息通常是多种多样,因而最终构建的模型中可能关联到多个回归特征。而在实际应用中,某些回归特征的自变量可能对因变量没有影响或者相关程度很小,可以不用参与回归方程的构建或计算,而有些回归特征的影响较大则,在构建回归方程时可以加入该回归特征。例如回归特征“性别”对是否给予放贷的风险评估影响较小,相关程度较低,可以认为其显著性较低,构建风险评估模型时可以不使用回归特征“性别”;而回归特征“月薪”、“信用”对是否给予放贷的风险评估影响较大,相关程度较高,则可以认为其显著性较高,构建风险评估模型时可以使用回归特征“月薪”、“信用”。所述的回归特征也可以称为参数或自变量。
回归分析是一种解析自变量和因变量并明确两者关系的统计方法。回归分析通常可以使用学生t检验来对回归系数检验其值是否为零。学生t检验,也称t检验,是一种统计上的假设检验,在原假设下其检验统计量服从学生t分布,在零假设为真的情况下检测数据的显著性。一般取0.05为置信度(显著性水平),表示从统计上说该回归项系数为零的概率有5%。得出各个自变量对目标变量产生的影响(显著性)后,可以筛选自变量,进一步建立/优化自变量与因变量的回归方程,减少相关程度低的回归特征,提高回归方程的质量,进而提高模型运算速度和输出结果的准确性、可靠性。
基于前述描述,本说明书的实施例提供了一种在多方参与的数据共享的应用场景中,可以实现基于隐私保护的回归特征的两方线性回归系数的显著性检验,筛选出显著性符合要求(例如回归系数不为零)的特征作为回归方程自变量。可以实现各个参与方所使用的特征的隐私保护的同时,使得利用多方数据建立更加精准、可靠的运算模型。同时对于参与方为两个参与方时,可以有效降低拿到联合计算结果的一方存在可以推出另一方的数据或估计值的风险。
本说明书的一些实施例中可以结合秘密共享来实现隐私保护。秘密共享是信息安全和数据保密的重要手段,它在重要信息和秘密数据的安全保存、传输以及合法利用中起着关键作用。秘密共享是基于密码学的多方安全计算(MPC:Multi-party Computation)中的一个解决隐私泄漏、实现隐私保护的重要手段。秘密分享目前普遍使用的秘密共享方案包括由Shamir和Blakley提出的门限秘密共享概念,其基本思想是将共享秘密s分成多个分片(share),分别交给不同参与方保管。只有超过门限数量的参与方将他们的share合并,才能恢复秘密。例如,满足只有大于等于一定数量的服务器联合才能重构共享的秘密,而任意少于所述一定数据的服务器不能得到该秘密的任何信息。
秘密分享可以用于隐私保护的多方安全计算中。具体应用中,各个参与方的输入数据分别作为联合计算的待处理数据的分片(share)。参与方本地的分片为其私有数据,对其他参与方而言通常是不可知。一般的多方安全计算中各个参与方分别拥有各自的私有数据,在不泄漏各自私有数据的情况下,能够联合计算出关于公共函数的结果。整个计算完成时,一般的,只有计算结果对参与方可知,且参与方通常不知其他参与方的数据以及计算过程的中间数据。计算结束后的结果可以仍然以秘密分享的方式分散在各参与方。在需要使用各个分片的运算结果的时候可以将各个参与方的数据合起来,还原出真实的原始数据。当然,秘密分享中每个参与方得到的分片通常是不相同的。当然,本说明书实施例不排除可以应用基于前述所述的多方安全计算的改进或变形、变换后的其他多方安全计算方式。
本说明书所涉及的隐私保护方案、装置、设备等,包括在数据存储、计算、通信等需要进行隐私保护的实现方案。例如基于隐私保护的逻辑回归的参数显著性检验、基于隐私保护的线性回归的参数显著性检验等。而浮点数的平方根倒数为是一项基础的运算,可以采用快速平方根算法来求取近似值。常规的快速平方根算法中使用的是牛顿迭代法,迭代使用的初始化的值常常不够精确的,需要较多轮数的迭代才能得到精度较高的结果。而迭代轮数越多则数据计算及通信效率越低。为此,本说明书的一些实施例进行基于隐私保护的两方线性回归特征显著性检验过程中还可以结合多方计算、隐私保护、快速平方根算法等实现高效的两方浮点数平方根倒数的计算处理,减少迭代次数、提高初始化经度,提高数据处理速度。应用在基于隐私保护的线性回归特征显著性检验中,可以有效的对算法进行优化,提高计算设备的处理效率。
在一些基于多项式插值秘密共享方案的两方安全计算中,通常有共享秘密的加法、减法有直接的计算方法,而乘法、除法和模运算则可以根据具体场景采用一些算法进行转换/转化来实现。如秘密共享的矩阵乘法(Secretmatrixmultiplication,SMM),计算过程中双方对对方数据不可见,最终乘法结果为双方计算结果之和。另外,输出也可以不合并,分别保留在各自参与方。
以两个参与方为例,Alice和Bob分别在本地将秘密(secret)切分成两个分片(share),一份留给自己,另一份发送至对方。生成预处理数据(Beaver Triples),Alice和Bob通过多轮参数的计算和交换,分别得到一个中间结果。例如通过一个半可信的服务生成预处理数据(u0,v0,z0)和(u1,v1,z1),并分别发送给Alice和Bob。半可信是指相信该服务器不会和Alice或Bob合谋窃取数据,但信任程度不足以能将原始数据都交给该服务器来做运算。Alice和Bob交换e=a-u和f=b-v的share后,各自计算出e和f。其中,u=u0+u1,即u的share为u0和u1,v=v0+v1即v的share为v0+v1。需要获得最终结果的一方收集Alice和Bob的中间结果,将这些中间结果相加,即可得到Alice和Bob所持有的两个分片的积。上述的处理过程可以称为两方联合计算。当然,其他的两方联合计算方式中也可以不使用中间服务器(中间平台),如上述的半可信的服务器可以,通过两方对随机数或预处理数据多轮的计算和交换来得到分片的积。
在本说明书基于隐私保护的两方线性回归特征显著性检验处理过程中可以使用一种新的隐私保护的平方根倒数的数据处理方法,对基于隐私保护平方根倒数算法(Secure Number Sqrt Invert,SNSI算法)进行优化。两方联合进行牛顿法迭代计算时将秘密分享中的加法分片转化成乘法分片,进而可以在基于隐私保护的平方根倒数算法中引入快速平方根算法的高精度初始化,从而减少后续基于隐私保护牛顿法的迭代次数,在保护用户隐私的同时提高了算法效率。
下面以一个具体的基于隐私保护下的两方线性回归特征显著性检验的实施场景进行说明。在本实施例中,可以采用t检验进行显著性检验,是一种t检验的隐私保护计算方法。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置、系统结构等,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或结构。所述的方法或系统结构的在实际中的装置、服务器、系统或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群、结合云计算或区块链技术的实施环境)。
当然,下述实施例的描述并不对基于本说明书实施例得到的其它可扩展技术方案构成限制。例如。具体的,本说明书提供的所述方法的一种实施例可以包括:
S0:设置回归特征的回归系数在t检验中的原假设为零。
为便于描述,本说明书的一些实施例中可以将第一参与方持有的私有数据构成的第一原始矩阵作为联合矩阵的第一分片,将第二参与方持有的私有数据构成的第二原始矩阵作为联合矩阵的第二分片。具体的应用场景中,第一参与方可以为存储有用户个人自然属性(如身高、年龄等)私有数据的一侧,如支付平台服务器,第二参与方可以为存储有用户信用记录(如房贷、信用卡逾期等)私有数据的一侧,如征信系统或保险公司一侧的服务器。
本实施例中线性回归方程的表达式可以设置为
Figure 404904DEST_PATH_IMAGE001
Figure 853202DEST_PATH_IMAGE002
可以包含常数项),其中,
Figure 39464DEST_PATH_IMAGE003
Figure 965832DEST_PATH_IMAGE004
Figure 514625DEST_PATH_IMAGE005
设置检验的原假设和备择假设分别为:
Figure 792547DEST_PATH_IMAGE006
Figure 794001DEST_PATH_IMAGE007
上式中,
Figure 399426DEST_PATH_IMAGE008
可以表示为参数的真实值,
Figure 599463DEST_PATH_IMAGE009
可以表示为
Figure 514198DEST_PATH_IMAGE008
的估计值。
Figure 799686DEST_PATH_IMAGE010
可以表示采用
Figure 943223DEST_PATH_IMAGE011
算法或函数对
Figure 201029DEST_PATH_IMAGE008
进行处理后得到其估计值
Figure 162032DEST_PATH_IMAGE009
Figure 59449DEST_PATH_IMAGE012
可以表示第
Figure 131310DEST_PATH_IMAGE013
个特征的回归系数。类似的,
Figure 181306DEST_PATH_IMAGE014
可以表示
Figure 47631DEST_PATH_IMAGE015
的估计值,
Figure 510973DEST_PATH_IMAGE016
可以表示
Figure 245580DEST_PATH_IMAGE017
的一种估计值等等。一些实施场景中,真实值可以是未知的,在t检验中可以假定它存在,然后用数据去拟合估计值。
Figure 274716DEST_PATH_IMAGE018
可以表示残差。
Figure 718467DEST_PATH_IMAGE019
可以表示方差,
Figure 200264DEST_PATH_IMAGE020
可以表示标准差。所有残差平方之和称误差平方和
Figure 817190DEST_PATH_IMAGE017
,又称残差平方和
Figure 828396DEST_PATH_IMAGE017
,可以用于
Figure 567681DEST_PATH_IMAGE021
表示。本实施例中可以将残差平方和除以自由度n-k(其中k为自变量个数+1)可以作为误差平方和
Figure 412141DEST_PATH_IMAGE017
的无偏估计值,可以用在统计量计算中来检验拟合的模型是否显著。
在本实施例的t检验中,可以采用回归系数除以回归系数的标准差等于统计量t的数值的方式来进行t检验。具体的,第
Figure 567178DEST_PATH_IMAGE013
个特征的统计量可以设置为:
Figure 570907DEST_PATH_IMAGE022
(公式1)。
公式1中,
Figure 605728DEST_PATH_IMAGE023
为单个参数的样本数,
Figure 62117DEST_PATH_IMAGE024
为参数个数(变量个数+1),
Figure 20845DEST_PATH_IMAGE025
Figure 488867DEST_PATH_IMAGE026
的无偏估计值,
Figure 569955DEST_PATH_IMAGE027
=
Figure 638274DEST_PATH_IMAGE028
。上式中,
Figure 400694DEST_PATH_IMAGE029
可以表示第
Figure 113435DEST_PATH_IMAGE030
个特征的回归系数的估计值,
Figure 975212DEST_PATH_IMAGE031
可以表示第
Figure 406193DEST_PATH_IMAGE030
个特征的回归系数的标准差,
Figure 706725DEST_PATH_IMAGE032
为自由度。
给定显著性水平
Figure 664185DEST_PATH_IMAGE033
,可得到临界值ta/2(
Figure 555918DEST_PATH_IMAGE034
),临界值通常是已知的,固定的。由样本求出统计量
Figure 349562DEST_PATH_IMAGE035
的数值,将其转换后可以得到
Figure 516101DEST_PATH_IMAGE036
。若
Figure 65418DEST_PATH_IMAGE036
> ta/2(n-k),则拒绝原假设
Figure 393631DEST_PATH_IMAGE037
;若
Figure 736888DEST_PATH_IMAGE038
则接受原假设
Figure 316905DEST_PATH_IMAGE039
。显著水平
Figure 124324DEST_PATH_IMAGE033
可以取
Figure 748072DEST_PATH_IMAGE040
Figure 578625DEST_PATH_IMAGE041
。在给定显著性水平
Figure 821388DEST_PATH_IMAGE033
下,接收或拒绝原假设。例如:在显著性水为0.05时,拒绝原假设
Figure 358679DEST_PATH_IMAGE039
,也就是说有95%的概率
Figure 28695DEST_PATH_IMAGE012
不等于0,则可以认为特征是显著的。这样可以基于特征的显著特性对特征进行筛选,可以筛选出检验结果为显著的特征。筛选出的特征可以在回归方程中使用。本说明书的一些实施例中,所述的回归特征在t检验中体现为参数,在回归方程中体现为自变量,因此,一些实施例中所述的参数、回归特征、自变量也可以表示相同的含义。
S2:各参与方基于多方安全计算的线性回归训练确定回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值。
设定线性回归方程、确定t检验中的原假设和统计量以及其他参量的定义等,可以由样本计算出统计量t的数值。而本说明书中的
Figure 346544DEST_PATH_IMAGE042
可以通过多方安全计算线性回归训练(MPC-Liner Regression)计算得到。
各参与方进行多方安全计算的线性回归训练(MPC-Liner Regression),并分别得到各自拥有特征的估计值的分片,
Figure 252052DEST_PATH_IMAGE043
可以表示第一参与方A拿到的回归系数的估计值的分片,
Figure 175008DEST_PATH_IMAGE044
可以表示第二参与方B拿到的回归系数的估计值的分片。还可以预测残差的估计值
Figure 15926DEST_PATH_IMAGE045
。将残差平方和除以自由度n-k可以得到无偏估计。具体的可以处理过程中,所述的联合矩阵的残差值的预测值
Figure 8021DEST_PATH_IMAGE046
。在原始数据纵向分布场景下,假如标签( MPC-LinerRegression训练集里的真实值)由第一参与方A拥有,则有
Figure 592586DEST_PATH_IMAGE047
,
Figure 166787DEST_PATH_IMAGE048
。进而可以由一次秘密共享的矩阵乘法(Secretmatrixmultiplication,SMM)得到
Figure 319551DEST_PATH_IMAGE049
所述的多方安全计算的线性回归训练的一种实现方案中,可以使用第一数据拥有方的特征数据,经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型,其中,所述预测模型是线性回归模型,所述预测模型的输出是所述待筛选模型特征的预测值,以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征,所述预测模型被水平切分为多个预测子模型,每个数据拥有方具有一个预测子模型,所述第一数据拥有方是预测模型训练的训练发起方,以及所述第二数据拥有方是预测模型训练的训练协同方,其中,所述预测模型的预测值被使用来确定所述待筛选模型特征的预测差值和方差膨胀因子,所述方差膨胀因子用于对所述待筛选模型特征进行模型特征筛选处理。当然,本领域技术人员可以参照申请号CN111079939A,发明名称为“基于数据隐私保护的机器学习模型特征筛选方法及装置”文献实现本说明书的各参与方基于多方安全计算的线性回归训练确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值,或者基于该文献进行相应方案的变形或变换来确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值。
通过前述方式,参与方A和B分片可以分别拥有某个回归特征的回归系数的其中一个分片和回归系数的标注差的无偏估计值的一个分片。若需要恢复原始数据,则第一参与方A和第二参与方B可以多方安全计算得到某个特征相对应的
Figure 143150DEST_PATH_IMAGE009
Figure 734669DEST_PATH_IMAGE016
在公式1计算统计量
Figure 99396DEST_PATH_IMAGE050
中,前述方式可以计算得到回归系数的估计值
Figure 282116DEST_PATH_IMAGE042
和误差平方和
Figure 999536DEST_PATH_IMAGE017
的无偏估计值
Figure 925904DEST_PATH_IMAGE016
。下面对统计量中的
Figure 209117DEST_PATH_IMAGE051
的计算进行描述说明。
在基于隐私保护的多方参与应用场景下,各个参与方均通常是各自保留自己的私有数据。可以将参数的显著性检验的各个参与方的私有数据作为联合矩阵整体的一个分片。各个参与方的私有数据为私有的,不希望被其他方知晓或被推算出来真实值或估计值。各个参与方的私有数据可以视为一个整体私有数据库,各个参与方分别持有这个私有数据库的一部分(一个分片)。本说明书的一些实施例可以将参与方原始的私有数据转换成矩阵。不同参与方的矩阵的组合可以一个联合矩阵。可以理解的是,客观上可以并不实际存在所述的整体私有数据库或者联合矩阵,也不存在实际将各个参与方的私有数据/矩阵进行组合或拼接的处理,各个参与方可以仍然本地持有各自的私有数据/矩阵。
各个参与方构建各自原始矩阵的处理中,各参与方可以分别将各自的私有数据按照预先设置的方式在本地构成原始矩阵
Figure 952951DEST_PATH_IMAGE052
Figure 16722DEST_PATH_IMAGE053
为相应的参与方。例如一个实现方式中可以按行构成原始矩阵
Figure 622147DEST_PATH_IMAGE052
,对于单个原始矩阵,列可以表示一个特征的多个样本,行可以表示不同的特征,这样,第一参与方A可以构成第一原始矩阵
Figure 759867DEST_PATH_IMAGE054
,第二参与方B可以构成第二原始矩阵
Figure 549969DEST_PATH_IMAGE055
。例如图1所示,对于第一原始矩阵
Figure 960090DEST_PATH_IMAGE054
,每一列可以表示一个特征的
Figure 228261DEST_PATH_IMAGE056
个特征样本,每一行表示
Figure 423750DEST_PATH_IMAGE057
个特征,每一行中一个特征有一个特征样本。相应的,对于第一原始矩阵
Figure 384753DEST_PATH_IMAGE055
,每一列可以表示一个特征的
Figure 16591DEST_PATH_IMAGE058
个特征样本,每一行表示
Figure 291715DEST_PATH_IMAGE059
个特征。这样,两个参与方分别持有联合矩阵的其中一个分片。因此,一些实施例中所述原始矩阵可以采用下述方式构建生成:
参与方
Figure 466344DEST_PATH_IMAGE052
将本地私有数据中的特征按行构成原始矩阵
Figure 473614DEST_PATH_IMAGE052
或按列构成原始矩阵
Figure 733694DEST_PATH_IMAGE052
的转置矩阵,
Figure 546930DEST_PATH_IMAGE053
为相应的参与方,其中,在原始矩阵
Figure 703629DEST_PATH_IMAGE052
中,每一列表示一个特征的
Figure 6434DEST_PATH_IMAGE060
个特征样本,每一行表示
Figure 629177DEST_PATH_IMAGE061
个特征。
上述中的原始矩阵可以以私有数据的特征按行构成原始矩阵
Figure 42840DEST_PATH_IMAGE052
。若以私有数据的特征按列构成的原始矩阵则可以视为原始矩阵
Figure 129745DEST_PATH_IMAGE052
的转置矩阵。对于本说明书实施例而言,私有数据的特征按行或按列构成的原始矩阵是可以相互转化的,按行构建原始矩阵可以视为按列构建的原始矩阵的另一种特征的矩阵体现形式。因此,本说明书描述的按行构建原始矩阵的实施例,应当理解为实质上包含了按列构建原始矩阵的实施方案,都应属于本说明书权利要求所包含的实施范围。
需要说明的是,本实施例中所述的联合矩阵
Figure 728086DEST_PATH_IMAGE002
以及其他实施例所述的联合矩阵
Figure 962758DEST_PATH_IMAGE062
存在于概念中,在实际处理中两个参与方并没有实际将各自本地的私有数据构建成原始矩阵进行拼接。所述的联合矩阵
Figure 789900DEST_PATH_IMAGE002
和联合矩阵
Figure 996890DEST_PATH_IMAGE062
是便于本说明书实施例方案的描述,假设将第一原始矩阵和第二原始矩阵拼接形成的假想的矩阵。
具体的例如,在两个参与方的实施场景下,各个参与方可以先在本地将自己的私有数据转换成矩阵,所述的联合矩阵可以视为由各个参与方的私有数据转换成矩阵后按照一定顺序拼接,或者将各个参与方的私有数据按照一定的行或列间隔拼接形成等。但联合矩阵的各个分片仍然是保持在各个参与方的本地,并没有将各个参与方的私有数据实际拼接在一起构成一个新的矩阵数据集合。一般的,各个参与方可以采用相同的预先设置的方式构成原始矩阵。也可以设置构建的原始矩阵的条件,如指定原始矩阵的行数和/或列数,项数不够的可以采用零值填充。
本实施例中所述的联合矩阵
Figure 375919DEST_PATH_IMAGE063
可以视为所述第一原始矩阵
Figure 222521DEST_PATH_IMAGE054
和第二原始矩阵
Figure 977987DEST_PATH_IMAGE055
接成而成,即
Figure 39484DEST_PATH_IMAGE064
。那么联合矩阵
Figure 730360DEST_PATH_IMAGE063
包括两个参与方的
Figure 939624DEST_PATH_IMAGE065
个特征以及特征的
Figure 357836DEST_PATH_IMAGE066
个样本。
拼接的预设方式可以包括多种数据组成方式。本说明书提供的一个联合矩阵
Figure 273839DEST_PATH_IMAGE063
的数据组成方案中,可以视为将第一原始矩阵
Figure 260250DEST_PATH_IMAGE054
和第二原始矩阵
Figure 566598DEST_PATH_IMAGE055
横向(如水平方向)拼接确定。这样拼接方式构成的联合矩阵相当于各个参与方的数据在联合矩阵中是纵向分布、垂直切分的,如图1所述。在联合矩阵
Figure 929446DEST_PATH_IMAGE063
中,每一列可以表示一个特征的
Figure 358678DEST_PATH_IMAGE066
个特征样本,每一行表示
Figure 781569DEST_PATH_IMAGE065
个特征,则有特征数
Figure 575212DEST_PATH_IMAGE067
。采用上述方式构成的联合矩阵可以称为原始数据纵向分布场景(Vertically-partitioned data)。具体的,本说明书提供的所述方法的另一个实施例中,所述联合矩阵可以视为采用下述方式构建的假想矩阵:
S20:将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 413855DEST_PATH_IMAGE054
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 101189DEST_PATH_IMAGE055
横向拼接在一起构成的联合矩阵
Figure 819615DEST_PATH_IMAGE064
,在联合矩阵
Figure 959609DEST_PATH_IMAGE063
中,每一列表示一个特征的
Figure 539626DEST_PATH_IMAGE066
个特征样本,每一行表示
Figure 284728DEST_PATH_IMAGE065
个特征,则特征数
Figure 783843DEST_PATH_IMAGE067
Figure 801346DEST_PATH_IMAGE057
为第一参与方A的特征个数,
Figure 778529DEST_PATH_IMAGE059
为第二参与方B的特征个数,
Figure 643717DEST_PATH_IMAGE056
为第一参与方A中单个特征的样本数,
Figure 189099DEST_PATH_IMAGE068
为第二参与方B中单个特征的样本数。
S4:计算所述联合矩阵的对称矩阵
Figure 569265DEST_PATH_IMAGE069
的第一加法分片
Figure 474773DEST_PATH_IMAGE070
和第二加法分片
Figure 194467DEST_PATH_IMAGE071
在本说明书的一些实施例中,
Figure 35384DEST_PATH_IMAGE072
Figure 512633DEST_PATH_IMAGE073
的逆矩阵。在矩阵处理中,矩阵其转置矩阵相乘可以得到方阵,这样便可以计算特征的值。本说明书中基于隐私保护的矩阵求逆算法适用于所有特征值大于0的矩阵,
Figure 362777DEST_PATH_IMAGE074
为实对称矩阵,满足所有特征值大于0的条件。因此,所有参与方可以联合计算
Figure 861279DEST_PATH_IMAGE074
Figure 873098DEST_PATH_IMAGE075
=
Figure 899960DEST_PATH_IMAGE076
=
Figure 429161DEST_PATH_IMAGE077
其中,
Figure 654606DEST_PATH_IMAGE078
可以由相应的参与方
Figure 40588DEST_PATH_IMAGE079
本地求出,例如第一参与方A可以由自己本地构建的第一原始矩阵
Figure 741697DEST_PATH_IMAGE080
本地求出
Figure 933644DEST_PATH_IMAGE081
,第二参与方B可以由自己本地构建的第二原始矩阵
Figure 888961DEST_PATH_IMAGE082
本地求出
Figure 711424DEST_PATH_IMAGE083
需要两方联合计算,可以由第一参与方A与第二参与方B基于隐私保护的SMM算法联合算出,
Figure 509615DEST_PATH_IMAGE084
可由
Figure 364308DEST_PATH_IMAGE085
计算结果转置得到。其中,
Figure 564345DEST_PATH_IMAGE084
Figure 557709DEST_PATH_IMAGE085
的结果是加法分片,结果由两方分别保存。参与方将矩阵中本地计算的部分按照本地计算结果进行拼接可以还原
Figure 452984DEST_PATH_IMAGE084
Figure 986733DEST_PATH_IMAGE086
原始数据,无本地计算结果的部分用0填充(
Figure 431490DEST_PATH_IMAGE087
)只有一方拥有,另一方在该位置补。经过上述处理后,各参与方拥有矩阵
Figure 126913DEST_PATH_IMAGE088
,其中
Figure 102960DEST_PATH_IMAGE089
Figure 50187DEST_PATH_IMAGE090
可以表示第一参与方A所拥有的对称矩阵
Figure 224817DEST_PATH_IMAGE074
中的第一加法分片,
Figure 472565DEST_PATH_IMAGE091
可以表示第一参与方B所拥有的对称矩阵
Figure 670328DEST_PATH_IMAGE074
中的第二加法分片。
上述实施例描述了原始数据纵向分布场景下计算
Figure 545881DEST_PATH_IMAGE069
的第一加法分片和第二加法分片的处理过程。本说明书还提供另一种原始数据横向分布场景 (Horizontally-partitioned data)下的实施例。前述中各个参与方可以按照预先设置的方式构成原始矩阵
Figure 715962DEST_PATH_IMAGE052
,例如按行构成原始矩阵
Figure 753188DEST_PATH_IMAGE052
。另一个联合矩阵的数据组成方案中,可以视为将第一原始矩阵
Figure 703826DEST_PATH_IMAGE054
和第二原始矩阵
Figure 242124DEST_PATH_IMAGE055
在垂直方向拼接确定,即纵向拼接在一起,构成另一种数据场景下的联合矩阵
Figure 391346DEST_PATH_IMAGE092
。这样拼接方式构成的联合矩阵
Figure 474839DEST_PATH_IMAGE062
相当于各个参与方的数据在联合矩阵中是横向分布、水平切分的,如图2所示。在图2的原始数据横向分布场景示例中,每个参与方拥有相同的特征,各个参与方拥有特征的部分样本。在私有数据横向分布场景的联合矩阵
Figure 647195DEST_PATH_IMAGE062
中,每一列可以表示一个特征的
Figure 130129DEST_PATH_IMAGE066
个特征样本,每一行表示
Figure 992911DEST_PATH_IMAGE065
个特征,则有特征数
Figure 637519DEST_PATH_IMAGE093
。因此,所述方法的另一个实施例中,所述联合矩阵可以视为采用下述方式构建的假想矩阵:
S22:将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 297171DEST_PATH_IMAGE054
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 193583DEST_PATH_IMAGE055
纵向拼接在一起构成的联合矩阵
Figure 51817DEST_PATH_IMAGE092
,在联合矩阵
Figure 991960DEST_PATH_IMAGE062
中,每一列表示一个特征的
Figure 873329DEST_PATH_IMAGE066
个特征样本,每一行表示
Figure 432486DEST_PATH_IMAGE065
个特征,则特征数
Figure 20593DEST_PATH_IMAGE094
Figure 272583DEST_PATH_IMAGE057
为第一参与方A的特征个数,
Figure 831128DEST_PATH_IMAGE059
为第二参与方B的特征个数,
Figure 131659DEST_PATH_IMAGE056
为第一参与方A中单个特征的样本数,
Figure 698907DEST_PATH_IMAGE068
为第二参与方B中单个特征的样本数。
同样的,在原始数据横向分布场景的联合矩阵
Figure 997164DEST_PATH_IMAGE095
中,参照前述原始数据纵向分布中的数据处理方式,各参与方可以基于多方安全计算的线性回归训练(MPC-LinerRegression)确定回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值。具体的可以处理过程中,
Figure 649862DEST_PATH_IMAGE096
。在原始数据横向分布场景下,参与方分别持有各自部分样本的标签,如第一参与方的标签
Figure 754084DEST_PATH_IMAGE097
,在一列中可以表示为(
Figure 566051DEST_PATH_IMAGE098
,以及第二参与方的标签
Figure 159844DEST_PATH_IMAGE099
,在一列中可以表示为(
Figure 175204DEST_PATH_IMAGE100
),
Figure 817538DEST_PATH_IMAGE097
为第一参与方A拥有的标签预测结果的一个分片,
Figure 359378DEST_PATH_IMAGE099
为第一参与方B拥有的标签预测结果的另一个分片。参与方分别将各自标签补全为
Figure 983126DEST_PATH_IMAGE101
(存储标签的样本对应的位置为真实标签值,其余位置补0。这样原始数据横向分布场景下,
Figure 875996DEST_PATH_IMAGE097
的个数加
Figure 994125DEST_PATH_IMAGE099
的个数据等于
Figure 859312DEST_PATH_IMAGE102
个数。则有
Figure 529328DEST_PATH_IMAGE103
,
Figure 768549DEST_PATH_IMAGE104
)。进而可以由一次SMM得到原始数据横向分布场景下的
Figure 815002DEST_PATH_IMAGE105
同样的,可以计算所述联合矩阵
Figure 534696DEST_PATH_IMAGE062
的对称矩阵的第一加法分片
Figure 250980DEST_PATH_IMAGE106
和第二加法分片
Figure 852862DEST_PATH_IMAGE107
。则有:
Figure 564991DEST_PATH_IMAGE108
=
Figure 139192DEST_PATH_IMAGE109
=
Figure 151010DEST_PATH_IMAGE081
+
Figure 381134DEST_PATH_IMAGE110
类似的,参照前述原始数据纵向分布场景的处理,各参与方拥有矩阵
Figure 503811DEST_PATH_IMAGE111
,其中
Figure 198097DEST_PATH_IMAGE112
Figure 505451DEST_PATH_IMAGE113
可以表示第一参与方A所拥有的联合矩阵
Figure 81926DEST_PATH_IMAGE095
的对称矩阵的第一加法分片,
Figure 883660DEST_PATH_IMAGE114
可以表示第一参与方B所拥有的联合矩阵
Figure 432453DEST_PATH_IMAGE095
的对称矩阵的第二加法分片。
前述无论是原始数据纵向分布场景还是原始数据横向分布场景的联合矩阵,经过本地计算或结合多方联合计算联合矩阵的对称矩阵,每个参与方均可以得到对称均在
Figure 786074DEST_PATH_IMAGE069
其中的一个加法分片。当然,本说明书的其他实施例中,各个参与方的原始矩阵还可以采用其他方式拼接成联合矩阵,或者各个参与方也可以采用其他方式构成原始矩阵。例如各个参与方将原始数据按行构成矩阵
Figure 974478DEST_PATH_IMAGE052
,或者每个参与方的原始矩阵按行或列间隔拼接成联合矩阵等。
S6:基于所述第一加法分片和第二加法分片,两方联合计算隐私保护下的所述对称矩阵的逆矩阵的第一加法分片和第二加法分片。
两方联合计算对称矩阵
Figure 704537DEST_PATH_IMAGE115
的逆矩阵
Figure 107836DEST_PATH_IMAGE116
的第一加法分片和第二加法分片:
Figure 507725DEST_PATH_IMAGE116
=
Figure 58792DEST_PATH_IMAGE117
各参与方可以由隐私保护下的矩阵的逆矩阵(SecureMatrixInverse,SMI)算法得到
Figure 717175DEST_PATH_IMAGE118
的加法分片
Figure 771719DEST_PATH_IMAGE119
,其中第一参与方A得到的逆矩阵的加法分片可以称为
Figure 670405DEST_PATH_IMAGE120
,第二参与方B得到的逆矩阵的加法分片称为
Figure 318555DEST_PATH_IMAGE121
所述的SMI是基于隐私保护下,对矩阵进行求逆运算的一种处理算法。具体的,应用在矩阵中的SMI算法中的一个处理示例中:
输入:2个参与方中,其中一个参与方拥有矩阵
Figure 655995DEST_PATH_IMAGE122
另一个参与方拥有矩阵
Figure 692609DEST_PATH_IMAGE123
,
Figure 824513DEST_PATH_IMAGE124
输出:2个参与方分别得到矩阵
Figure 22276DEST_PATH_IMAGE125
中的一个,
Figure 773195DEST_PATH_IMAGE126
2个参与方分别本地计算
Figure 802330DEST_PATH_IMAGE127
的迹,得到
Figure 760928DEST_PATH_IMAGE128
Figure 118091DEST_PATH_IMAGE129
2个参与方由
Figure 531755DEST_PATH_IMAGE130
Figure 618660DEST_PATH_IMAGE131
及MPC浮点数求逆算法联合计算
Figure 217000DEST_PATH_IMAGE132
,分别得到
Figure 451672DEST_PATH_IMAGE133
Figure 544393DEST_PATH_IMAGE134
Figure 485804DEST_PATH_IMAGE135
两方联合进行牛顿法迭代计算
Figure 130412DEST_PATH_IMAGE136
确定迭代初始值
Figure 977015DEST_PATH_IMAGE137
,分别由两个参与方拥有
Figure 732481DEST_PATH_IMAGE138
迭代公式可以设置为:
Figure 793978DEST_PATH_IMAGE139
;一般的,
Figure 219274DEST_PATH_IMAGE140
在迭代公式中的通常表示第
Figure 428539DEST_PATH_IMAGE141
轮迭代之后
Figure 126978DEST_PATH_IMAGE002
的值,该值的分片可由不同的参与方拥有。不同的参与方可以通过多方安全计算联合计算恢复出
Figure 42982DEST_PATH_IMAGE140
的真实值。
每轮迭代使用两次SMM,参与方分别得到矩阵
Figure 29392DEST_PATH_IMAGE142
。这里的
Figure 335740DEST_PATH_IMAGE143
对应在本实施例中相当于第一参与方A得到的逆矩阵的加法分片
Figure 433009DEST_PATH_IMAGE120
Figure 469098DEST_PATH_IMAGE144
对应在本实施例中相当于第二参与方B得到的逆矩阵的加法分片
Figure 751043DEST_PATH_IMAGE145
由于迭代轮数会泄露矩阵大小信息,本算法迭代轮数
Figure 669321DEST_PATH_IMAGE146
可以为超参数。前述SMI算法中浮点数指的是
Figure 445647DEST_PATH_IMAGE147
,本身为浮点数(以有限域下的整数形式存储)。上述处理过程中的一些实现方式具体的也可以参照SNSI算法描述,例如关于将64位浮点数
Figure 336243DEST_PATH_IMAGE147
的存储值按照64位整数的存储方式、两方联合进行牛顿法迭代计算时将秘密分享中的加法分片转化成乘法分等。
第一参与方A和第二参与方B由SMI算法得到
Figure 664456DEST_PATH_IMAGE118
的加法分片
Figure 194663DEST_PATH_IMAGE119
,其中第一参与方A得到的加法分片称为
Figure 633735DEST_PATH_IMAGE120
,第二参与方B得到的加法分片称为
Figure 378837DEST_PATH_IMAGE121
S8:基于所述逆矩阵的第一加法分片和第二加法分片、所述无偏估计值,第一参与方和第二参与方联合计算所述回归系数的标准差的第一加法分片和第二加法分片。
前述S6的处理后可以得到
Figure 753317DEST_PATH_IMAGE051
)的运算结果的第一加法分片和第二加法分片
Figure 646187DEST_PATH_IMAGE120
Figure 13583DEST_PATH_IMAGE121
。那么可以进一步的通过1次SMM算法计算得到(
Figure 613192DEST_PATH_IMAGE148
)。对于回归系数的标准差
Figure 283208DEST_PATH_IMAGE149
可以视为(
Figure 538740DEST_PATH_IMAGE148
)的平方根倒数
Figure 585193DEST_PATH_IMAGE150
,其可以通过SMM算法计算得到。具体的可以采用本说明书实施例中相关基于隐私保护的多方安全计算方式得到
Figure 39308DEST_PATH_IMAGE148
)或者
Figure 7789DEST_PATH_IMAGE150
,也可以采用其他的算法进行计算得到。例如采用隐私保护下的多方安全计算的快速平方根算法求解
Figure 875251DEST_PATH_IMAGE150
本说明书提供的S8的一个计算所述回归系数的标准差的第一加法分片和第二加法分片处理过程中可以包括:
S80:基于所述逆矩阵的第一加法分片和第二加法分片,第一参与方和第二参与方联合计算所述无偏估计值与逆矩阵相乘(
Figure 335182DEST_PATH_IMAGE148
)的运算结果的第一加法分片和第二加法分片。
在计算统计量
Figure 909383DEST_PATH_IMAGE050
的过程中,本实施例中可以计算
Figure 186780DEST_PATH_IMAGE148
,这是一个乘积的结果。基于隐私保护的秘密分享中,可以通过1次SMM算法将两方乘积的结果转换为加法分片的结果,乘法结果为双方加法分片计算结果之和。具体的,基于所述逆矩阵的第一加法分片
Figure 400593DEST_PATH_IMAGE151
和第二加法分片
Figure 726532DEST_PATH_IMAGE145
、标准差的估计值
Figure 951977DEST_PATH_IMAGE016
联合计算
Figure 275642DEST_PATH_IMAGE152
,其中第一参与方A得到的所述相乘的运算结果的第一加法分片为
Figure 852117DEST_PATH_IMAGE153
,第二参与方B得到的所述相乘的运算结果的第而加法分片为
Figure 903118DEST_PATH_IMAGE154
S82::根据所述相乘(
Figure 451911DEST_PATH_IMAGE148
)的运算结果的第一加法分片和第二加法分,第一参与方和第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片
Figure 805532DEST_PATH_IMAGE155
和第二加法分片
Figure 744669DEST_PATH_IMAGE156
另一个实施例中,前述得到
Figure 474728DEST_PATH_IMAGE148
之后,具体的可以基于SNSI算法,两方可以联合计算
Figure 799399DEST_PATH_IMAGE150
Figure 527184DEST_PATH_IMAGE157
这样,通过SNSI算法的处理,第一参与方A可以得到
Figure 812671DEST_PATH_IMAGE155
,第二参与方B可以得到
Figure 221787DEST_PATH_IMAGE156
所述的SNSI算法是对基于隐私保护平方根倒数算法的优化,其两方联合进行牛顿法迭代计算时将秘密分享中的加法分片转化成乘法分片,进而可以在基于隐私保护的平方根倒数算法中引入快速平方根算法的高精度初始化,从而减少后续基于隐私保护牛顿法的迭代次数,在保护用户隐私的同时提高了算法效率。
下面对本说明书实施例中所涉及到的SNSI算法进行描述。需要说明的是,其中,为便于本领域技术人员对理解和描述(算法常用参数及其含义),SNSI算法描述中所涉及的参数符号含义可以仅在SNSI算法描述中有效,并不对本说明书基于隐私保护的线性回归特征显著性检验方法、装置中相同的参数符号造成限制或不清楚的理解。例如,在SNSI算法描述中,
Figure 276331DEST_PATH_IMAGE066
可以表示为待处理数据,
Figure 99318DEST_PATH_IMAGE158
为迭代次数,在基于隐私保护的线性回归特征显著性检验方法中,
Figure 137681DEST_PATH_IMAGE066
可以表示单个参数的样本数,
Figure 819329DEST_PATH_IMAGE158
为参数个数。当然,在SNSI算法描述中,与本说明书基于隐私保护的线性回归特征显著性检验方法实施例存在相同的参数符号也可以采用其他英文字母或结合数字、字符的符合替代,如L、O、Q、R、U、Z等以及相应小写字母或字母组合或结合上下标来进行区别。
例如一个实施例应用场景中,假设数据拥有者有一个待处理数据
Figure 197221DEST_PATH_IMAGE066
,现在将
Figure 63546DEST_PATH_IMAGE066
秘密共享给两个参与方A和B。两个参与方分别拥有浮点数
Figure 713839DEST_PATH_IMAGE066
在秘密分享下的两个分片(
Figure 323812DEST_PATH_IMAGE159
Figure 556210DEST_PATH_IMAGE160
)中的一个。为便于描述,第一参与方A拥有的分片可以记做
Figure 734382DEST_PATH_IMAGE159
,第一参与方B拥有的加法分片可以记做
Figure 481758DEST_PATH_IMAGE160
。其中,
Figure 20055DEST_PATH_IMAGE161
(分片
Figure 106960DEST_PATH_IMAGE159
Figure 580667DEST_PATH_IMAGE160
属于有限域
Figure 690705DEST_PATH_IMAGE162
或环
Figure 642481DEST_PATH_IMAGE163
)。两个参与方可以分别各自以64位浮点数的形式将加法分片存储在各自的计算设备上。第一参与方A和第二参与方B联合进行牛顿法迭代计算
Figure 849471DEST_PATH_IMAGE066
的平方根倒数。在计算过程中,通过两次秘密分享和一次迭代计算,参与方A和参与方B分别各自得到浮点数
Figure 884292DEST_PATH_IMAGE066
的平方根倒数的加法分片(
Figure 340681DEST_PATH_IMAGE164
)中的其中一个。
处理过中,可以将秘密分享下的第一参与方与第二参与方的加法分片转化成乘法分片,使得
Figure 299410DEST_PATH_IMAGE165
,其中,
Figure 767431DEST_PATH_IMAGE166
为第一参与方A可以使用伪随机数生成器本地生成的随机数。
秘密分享需要处理数据的时候,一方将自己的数据发给另一方,或者将数据一起发给第三方(计算方)。一些实施例中可以采用两个参与方A和B通过计算和交换来实现将加法分片转化为乘法分片。具体的可以秘密共享的矩阵乘法,计算过程中双方对对方数据不可见,最终乘法结果为双方计算结果之和。
例如一个实施例的处理示例中,第一参与方A本地使用伪随机数生成器生成随机数
Figure 848520DEST_PATH_IMAGE166
并求
Figure 919769DEST_PATH_IMAGE167
。第一参与方可以进一步得到
Figure 682188DEST_PATH_IMAGE168
Figure 394929DEST_PATH_IMAGE169
可以由第二参与方通过与第一参与方秘密分享乘法联合计算得到。其中,
Figure 256706DEST_PATH_IMAGE170
Figure 687687DEST_PATH_IMAGE171
。第一参与方A与第二参与方B通过秘密分享乘法联合计算
Figure 988219DEST_PATH_IMAGE172
,此时第一参与方可以得到
Figure 211259DEST_PATH_IMAGE173
,第二参与方可以得到
Figure 102991DEST_PATH_IMAGE174
。参与方A计算
Figure 224531DEST_PATH_IMAGE171
并将
Figure 857DEST_PATH_IMAGE175
发送至第二参与方B。在秘密分享处理中,一般的,第一参与方不可单独发送
Figure 688190DEST_PATH_IMAGE176
Figure 141037DEST_PATH_IMAGE173
给另一个参与方。第二参与方B计算
Figure 484294DEST_PATH_IMAGE170
。此时
Figure 454524DEST_PATH_IMAGE165
Figure 871730DEST_PATH_IMAGE166
Figure 370844DEST_PATH_IMAGE169
可以作为待处理数据
Figure 201397DEST_PATH_IMAGE066
的一种乘法分片。
第一参与方和第二参与可以分别利用各自的乘法分片在本地计算迭代估计值的初始值的乘法分片。例如在利用快速平方根算法时,可以采用下述方式确定迭代估计值的初始值的乘法分片:
第一参与方A可以将P位浮点数
Figure 568794DEST_PATH_IMAGE166
的存储值按照P位整数的存储方式进行读取,并右移一位,记为
Figure 230719DEST_PATH_IMAGE177
,P为浮点数的位数。
计算常数C
Figure 776101DEST_PATH_IMAGE178
,并按照P位浮点数的存储方式进行读取, 作为第一参与方迭代估计值的初始值的乘法分片
Figure 93950DEST_PATH_IMAGE179
第二参与方B将P位浮点数
Figure 140403DEST_PATH_IMAGE169
的存储值按照P位整数的存储方式进行读取,并右移一位,记为
Figure 772680DEST_PATH_IMAGE180
计算常数C
Figure 613597DEST_PATH_IMAGE181
,并按照P位浮点数的存储方式进行读取, 作为第二参与方迭代估计值的初始值的乘法分片
Figure 418742DEST_PATH_IMAGE182
在64位浮点类型的数据中(64位浮点数),P为64。所述的常数C在64位浮点类型的数据中(64位浮点数)可以为0x5fe6eb50c7b537a9。一些实施例中,所述按照P位整数的存储方式进行读取可以表示将数据按照P位整数的方式进行读取。在本实施例中,秘密分享的分片仍然是整数,在存储的时候是以P位的浮点数存储的。这P位的浮点数从整体看作是一个整数(分片),读取出来的时候是一个以P位浮点数形式存储的一个整数。P可以根据数据存储的位数取值。
以第一参与方A为例:
将64位浮点数
Figure 878673DEST_PATH_IMAGE166
的存储值按照64位整数的存储方式进行读取,并右移一位(除以2并下取整),记为
Figure 515191DEST_PATH_IMAGE177
计算0x5fe6eb50c7b537a9
Figure 651643DEST_PATH_IMAGE178
,并按照64位浮点数的存储方式进行读取,记为第一参与方迭代估计值的初始值的乘法分片
Figure 678505DEST_PATH_IMAGE179
同样的,参数上述方式,第二参与方B读取
Figure 66761DEST_PATH_IMAGE183
可以得到第二参与方迭代估计值的初始值的乘法分片
Figure 167572DEST_PATH_IMAGE182
根据所述迭代估计值的初始值的乘法分片,通过第一参与方和第二参与方的联合计算进行基于隐私保护的浮点数平方根倒数的牛顿迭代处理,得到所述待处理数据的平方根倒数的加法分片。
上述各个参与方可以各自得到的迭代估计值的初始值的乘法分片。该迭代估计值的初始值的乘法分片通常属于参与方的私密数据,由参与方本地保存。进行求解平方根倒数的处理时可以通过参与方的数据计算和交互来联合计算,或者第三方进行求解平方根倒数的处理时可以通过与参与方的数据计算和交互来联合计算,确定各个参与方确定了各自的迭代估计值的初始值的乘法分片。本说明书一些实施例中所述的进行计算浮点数平方根倒数的牛顿迭代处理可以指使用牛顿迭代法迭代计算浮点数的平方根倒数,一些实施例中并不要一定要计算出浮点数的平方根倒数的分片。本说明书实施例方案的目的之一是在隐私保护场景中计算平方根倒数的一些算法中将秘密分享中的加法分片转化成乘法分片,可以引入快速平方根算法(快速平方根算法中使用到牛顿迭代法)的高精度初始化,从而减少后续基于隐私保护的牛顿法的迭代次数,在保护用户隐私的同时提高了算法效率。另一方面,基于隐私保护的浮点数平方根倒数的牛顿迭代处理还可以使得两个参与方各自得到待处理数据
Figure 615871DEST_PATH_IMAGE066
平方根倒数的其中一个加法分片
Figure 316980DEST_PATH_IMAGE184
Figure 446610DEST_PATH_IMAGE185
。这里的加法分片可以满足
Figure 792140DEST_PATH_IMAGE186
Figure 286707DEST_PATH_IMAGE184
Figure 288161DEST_PATH_IMAGE185
也可以为以浮点数形式存储的整数。
具体的一个处理实施例中,可以设迭代初始值
Figure 18219DEST_PATH_IMAGE187
。两个参与方可拥有该迭代初始值
Figure 342890DEST_PATH_IMAGE138
。本说明书实施例可以使用快速平方根算法计算平方根倒数。在快速平方根算法中使用到牛顿迭代公式
Figure 132992DEST_PATH_IMAGE188
,其中
Figure 621742DEST_PATH_IMAGE189
为第
Figure 765279DEST_PATH_IMAGE158
次迭代。当
Figure 85401DEST_PATH_IMAGE190
时,
Figure 173968DEST_PATH_IMAGE138
即表示迭代初始值,相应的,
Figure 884435DEST_PATH_IMAGE191
将上述迭代初始值迭代牛顿迭代公式进行一次迭代,可得:
Figure 956296DEST_PATH_IMAGE192
Figure 271871DEST_PATH_IMAGE193
Figure 138196DEST_PATH_IMAGE194
(公式2)。
在上述公式2中,减数
Figure 601538DEST_PATH_IMAGE195
可通过第一参与方A和第二参与方B进行一次秘密分享计算得到。减法的后半部分,即在被减数
Figure 336145DEST_PATH_IMAGE196
中,
Figure 630860DEST_PATH_IMAGE166
Figure 543452DEST_PATH_IMAGE197
由第一参与方A存储,可以实现第一参与方A的本地计算;
Figure 494091DEST_PATH_IMAGE169
Figure 907754DEST_PATH_IMAGE198
由第二参与方B存储,可以实现第二参与方B的本地计算。因此,
Figure 916031DEST_PATH_IMAGE196
可视为
Figure 655316DEST_PATH_IMAGE199
。这样,被减数
Figure 827672DEST_PATH_IMAGE196
可通过第一参与方A和第二参与方B进行另一次秘密分享进行计算。这样,本说明书实施例的方案中,牛顿迭代计算过程中使用两次秘密分享乘法,共迭代1次,两个参与方可以分别各自得到待处理数据
Figure 654814DEST_PATH_IMAGE066
平方根倒数的两个加法分片中的其中一个。假设迭代后第一参与方A得到的第一加法分片记为
Figure 658542DEST_PATH_IMAGE184
,第二参与方B得到的第二加法分片记为
Figure 427783DEST_PATH_IMAGE185
。加法分片
Figure 87435DEST_PATH_IMAGE184
Figure 842901DEST_PATH_IMAGE185
可以同与
Figure 842081DEST_PATH_IMAGE159
Figure 657591DEST_PATH_IMAGE160
一样为浮点数形式存储的整数,以及属于有限域
Figure 804538DEST_PATH_IMAGE162
或环
Figure 225680DEST_PATH_IMAGE200
。此时,
Figure 204000DEST_PATH_IMAGE186
基于前述方法实施例中所涉及到的SNSI算法的描述中,一个实施例中,第一参与方通过本地计算和秘密分享计算出第二参与方在乘法分片中使用的预处理数据,并将所述预处理数据发送至所述第二参与方,以确定将第一参与方与第二参与方秘密分享下的加法分片转化成乘法分片的结果,可以包括:
第一参与方本地生成随机数
Figure 65777DEST_PATH_IMAGE166
并求
Figure 700020DEST_PATH_IMAGE167
,以及计算得到
Figure 62869DEST_PATH_IMAGE168
,其中,
Figure 754750DEST_PATH_IMAGE171
Figure 115324DEST_PATH_IMAGE159
为第一参与方存储的数据
Figure 33602DEST_PATH_IMAGE066
在秘密分享下的第一分片,
Figure 809928DEST_PATH_IMAGE160
为第二参与方存储的数据
Figure 497261DEST_PATH_IMAGE066
在秘密分享下的第二分片,
Figure 28736DEST_PATH_IMAGE161
Figure 293365DEST_PATH_IMAGE201
为以浮点数形式存储的整数;
第一参与方和第二参与方通过秘密分享乘法联合计算
Figure 263595DEST_PATH_IMAGE172
,第一参与方得到
Figure 680801DEST_PATH_IMAGE173
,
Figure 383177DEST_PATH_IMAGE202
第一参与方计算
Figure 10468DEST_PATH_IMAGE171
并将
Figure 377864DEST_PATH_IMAGE175
发送至第二参与方,以使第二参与方B计算
Figure 39790DEST_PATH_IMAGE170
,此时
Figure 913068DEST_PATH_IMAGE165
基于前述方法实施例的描述,所述方法的另一个实施例中,所述第一参与方利用第一参与方的乘法分片在本地计算初始化的迭代估计值的乘法分片包括:
第一参与方将P位浮点数
Figure 168600DEST_PATH_IMAGE166
的存储值按照P位整数的存储方式进行读取,并右移一位,记为
Figure 949474DEST_PATH_IMAGE177
,P为浮点数的位数;
计算常数C
Figure 669168DEST_PATH_IMAGE178
,并按照P位浮点数的存储方式进行读取,作为第一参与方初始化的迭代估计值的乘法分片
Figure 637649DEST_PATH_IMAGE179
基于前述方法实施例的描述,所述方法的另一个实施例中,其中,P为2的T次方,T为大于5的整数;以及当P取值为5时,常数C取值0x5fe6eb50c7b537a9。
基于前述方法实施例的描述,其中,第一参与方通过牛顿迭代计算得到所述浮点数的平方根倒数的第一分片
Figure 239531DEST_PATH_IMAGE184
满足
Figure 965042DEST_PATH_IMAGE186
Figure 335980DEST_PATH_IMAGE184
Figure 551061DEST_PATH_IMAGE185
为浮点数,
Figure 499294DEST_PATH_IMAGE185
为第二参与方通过牛顿迭代计算得到所述浮点数的平方根倒数的第二分片。
前述中的加减法和乘法可以视为矩阵加减法和乘法,取模运算mod可以定义为对矩阵每个元素都取模,则前述SNSI算法的方法和涉及的公式,可以适用于矩阵加减法和乘法。
S10:根据所述回归系数的标准差的第一加法分片和第二加法分片、回归系数的估计值计算回归特征的统计量。
根据所述回归系数的标准差的第一加法分片
Figure 153130DEST_PATH_IMAGE155
和第二加法分片
Figure 253941DEST_PATH_IMAGE156
、第
Figure 639923DEST_PATH_IMAGE013
个回归特征的回归系数的估计值
Figure 216398DEST_PATH_IMAGE042
的统计量。一个示例中可以如下所示:
Figure 532978DEST_PATH_IMAGE203
一个处理示例中,假设第
Figure 816192DEST_PATH_IMAGE013
个回归特征的观测值由第一参与方A拥有,则第二参与方B可以将
Figure 435392DEST_PATH_IMAGE156
发送给第一参与方A。第一参与方A计算
Figure 374529DEST_PATH_IMAGE203
S12:根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
一般的,得到上述t值(
Figure 839009DEST_PATH_IMAGE204
,回归特征的统计量)后,可以将其换算成P值。P值可以直接与显著性水平比较。P值,通常是指当原假设为真时,所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,根据小概率原理,有理由拒绝原假设,P值越小,拒绝原假设的理由越充分。在此,可以将t值换算成P值后(可以记为
Figure 242308DEST_PATH_IMAGE205
)再进行比较。具体的,在给定显著性水平a下,将
Figure 157044DEST_PATH_IMAGE206
换算成
Figure 442531DEST_PATH_IMAGE207
,与临界值ta/2(
Figure 179543DEST_PATH_IMAGE208
)进行比较。
Figure 109453DEST_PATH_IMAGE207
> ta/2(
Figure 70456DEST_PATH_IMAGE208
)则拒绝原假设。若统计量
Figure 982522DEST_PATH_IMAGE207
大于相应的临界值ta/2(
Figure 54383DEST_PATH_IMAGE208
),则可以表示在给定显著性水平a,例如a为0.05时,拒绝原假设
Figure 166696DEST_PATH_IMAGE209
。也就是说有95%的概率
Figure 439545DEST_PATH_IMAGE210
不等于0,此时可以认为特征
Figure 434046DEST_PATH_IMAGE211
是显著的。这样可以基于特征的显著特性对特征进行筛选,可以筛选出检验结果为显著、更加适用的特征,以便进行如构建回归方程等场景的应用。如筛选出的特征可以确定在基于隐私保护的线性回归方程中使用,或者多方参与的数据共享应用场景中使用的特征等。
前述实施例详细描述了一种基于隐私保护的线性回归特征显著性检验方法的处理实现过程。需要说明的是,所述的各参与方基于多方安全计算的线性回归训练确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值计算处理可以在确定t检验中的原假设后进行处理,也可以在计算
Figure 512861DEST_PATH_IMAGE150
后处理,获取其他计算
Figure 666630DEST_PATH_IMAGE212
之前的任意时机处理。类似的,前述实施例步骤的描述以及步骤表示符号S0、S2等也并不限定步骤的执行顺序。基于前述实施例描述,本说明书还提供一种基于隐私保护的线性回归特征显著性检验方法,如图3所示,可以包括:
S30:设置回归特征的回归系数在t检验中的原假设为零,各参与方基于多方安全计算的线性回归训练确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值;
S32:根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定的第二原始矩阵计算联合矩阵的对称矩阵的第一加法分片和第二加法分片;
S34:基于所述第一加法分片和第二加法分片,两方联合计算隐私保护下的所述对称矩阵的逆矩阵的第一加法分片和第二加法分片;
S36:基于所述逆矩阵的第一加法分片和第二加法分片、所述无偏估计值,第一参与方和第二参与方联合计算所述回归系数的标准差的第一加法分片和第二加法分片;
S38:根据所述回归系数的标准差的第一加法分片和第二加法分片、回归系数的估计值计算回归特征的统计量;
S310:根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,在t检验中,可以采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。如下式所示:
Figure 969436DEST_PATH_IMAGE022
基于前述数据纵向分布场景方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方持有的私有数据构成的第一原始矩阵
Figure 592178DEST_PATH_IMAGE054
和将第二参与方持有的私有数据构成的第二原始矩阵
Figure 209104DEST_PATH_IMAGE055
横向拼接在一起构成的联合矩阵
Figure 92746DEST_PATH_IMAGE064
,在联合矩阵
Figure 691087DEST_PATH_IMAGE063
中,每一列表示一个特征的
Figure 660180DEST_PATH_IMAGE066
个特征样本,每一行表示
Figure 80797DEST_PATH_IMAGE065
个特征,则特征数
Figure 694312DEST_PATH_IMAGE067
Figure 604499DEST_PATH_IMAGE057
为第一参与方A的特征个数,
Figure 185522DEST_PATH_IMAGE059
为第二参与方B的特征个数,
Figure 144251DEST_PATH_IMAGE056
为第一参与方A中单个特征的样本数,
Figure 2485DEST_PATH_IMAGE068
为第二参与方B中单个特征的样本数。
基于前述原始数据横向分布场景方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 958940DEST_PATH_IMAGE054
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 637046DEST_PATH_IMAGE055
纵向拼接在一起构成的联合矩阵
Figure 399466DEST_PATH_IMAGE092
,在联合矩阵
Figure 239770DEST_PATH_IMAGE062
中,每一列表示一个特征的
Figure 491760DEST_PATH_IMAGE066
个特征样本,每一行表示
Figure 798108DEST_PATH_IMAGE065
个特征,则特征数
Figure 98639DEST_PATH_IMAGE213
Figure 931466DEST_PATH_IMAGE057
为第一参与方A的特征个数,
Figure 213411DEST_PATH_IMAGE059
为第二参与方B的特征个数,
Figure 69372DEST_PATH_IMAGE056
为第一参与方A中单个特征的样本数,
Figure 970332DEST_PATH_IMAGE068
为第二参与方B中单个特征的样本数。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述原始矩阵包括采用下述方式构建生成:
参与方
Figure 798611DEST_PATH_IMAGE052
将本地私有数据中的特征按行构成原始矩阵
Figure 126824DEST_PATH_IMAGE052
或按列构成原始矩阵
Figure 470080DEST_PATH_IMAGE052
的转置矩阵,
Figure 33786DEST_PATH_IMAGE053
为相应的参与方,其中,在原始矩阵
Figure 841205DEST_PATH_IMAGE052
中,每一列表示一个特征的
Figure 543582DEST_PATH_IMAGE060
个特征样本,每一行表示
Figure 46238DEST_PATH_IMAGE061
个特征。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所计算所述回归系数的标准差的第一加法分片和第二加法分片包括:
基于所述逆矩阵的第一加法分片和第二加法分片,第一参与方和第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的第一加法分片和第二加法分片;
根据所述相乘的运算结果的第一加法分片和第二加法分,第一参与方和第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片和第二加法分片。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述方法还包括:
根据所述回归特征的显著特性检验结果对特征进行筛选,确定适用特征。
本说明书实施例提供的一种基于隐私保护的线性回归特征显著性检验方法,可以实现基于隐私保护的回归特征的两方线性回归系数的显著性检验。利用本说明书实施例的t检验的隐私保护计算方法,可以筛选出检验结果为显著、更加适用的特征,实现各个参与方所使用的特征的隐私保护的同时,使得利用多方数据建立更加精准、可靠的运算模型。
前述方法实施例描述了两个参与方基于隐私保护下共同参与两方线性回归特征显著性检验的处理过程。基于此,本说明书还提供一种可以应用于单个参与方一侧的基于隐私保护的线性回归特征显著性检验方法,可以应用于如前述所述的参与方A或者B一侧的设备。具体的,本说明书提供的另一种基于隐私保护的线性回归特征显著性检验方法,如图4所示,可以包括:
S40:第一参与方基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
S42:第一参与方获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定;
S44:基于所述第一加法分片和第二参与方的第二加法分片,第一参与方通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
S46:基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,第一参与方通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
S48:根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
S410:根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
本实施例中所述的第一参与方可以表示两个参与方中的其中一个,并不具体特征某个参与方。例如,当所述第一参与方为前述所述的A时,相应的第二参与方可以为B。若第一参与方为B,那么第二参与方则可以为A。
同样的,基于前述方法实施例的描述,本说明书提供的所述方法的另一个实施例中,在t检验中,可以采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。
基于前述数据纵向分布场景方法相关实施例描述,本说明书提供的所述方法的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 554580DEST_PATH_IMAGE054
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 341139DEST_PATH_IMAGE055
横向拼接在一起构成的联合矩阵
Figure 214417DEST_PATH_IMAGE064
,在联合矩阵
Figure 63425DEST_PATH_IMAGE063
中,每一列表示一个特征的
Figure 250823DEST_PATH_IMAGE066
个特征样本,每一行表示
Figure 767255DEST_PATH_IMAGE065
个特征,则特征数
Figure 811435DEST_PATH_IMAGE067
Figure 275302DEST_PATH_IMAGE057
为第一参与方A的特征个数,
Figure 125446DEST_PATH_IMAGE059
为第二参与方B的特征个数,
Figure 371751DEST_PATH_IMAGE056
为第一参与方A中单个特征的样本数,
Figure 586831DEST_PATH_IMAGE068
为第二参与方B中单个特征的样本数。
基于前述原始数据横向分布场景方法相关的实施例描述,本说明书提供的所述方法的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 676010DEST_PATH_IMAGE054
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 188900DEST_PATH_IMAGE055
纵向拼接在一起构成的联合矩阵
Figure 679924DEST_PATH_IMAGE092
,在联合矩阵
Figure 65906DEST_PATH_IMAGE062
中,每一列表示一个特征的
Figure 252168DEST_PATH_IMAGE066
个特征样本,每一行表示
Figure 444115DEST_PATH_IMAGE065
个特征,则特征数
Figure 914279DEST_PATH_IMAGE094
Figure 471163DEST_PATH_IMAGE057
为第一参与方A的特征个数,
Figure 269354DEST_PATH_IMAGE059
为第二参与方B的特征个数,
Figure 140358DEST_PATH_IMAGE056
为第一参与方A中单个特征的样本数,
Figure 340396DEST_PATH_IMAGE068
为第二参与方B中单个特征的样本数。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述原始矩阵包括采用下述方式构建生成:
参与方
Figure 68180DEST_PATH_IMAGE052
将本地私有数据中的特征按行构成原始矩阵
Figure 478302DEST_PATH_IMAGE052
或按列构成原始矩阵
Figure 277631DEST_PATH_IMAGE052
的转置矩阵,
Figure 535437DEST_PATH_IMAGE053
为相应的参与方,其中,在原始矩阵
Figure 106226DEST_PATH_IMAGE052
中,每一列表示一个特征的
Figure 144589DEST_PATH_IMAGE060
个特征样本,每一行表示
Figure 344014DEST_PATH_IMAGE061
个特征。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所计算所述回归系数的标准差的第一加法分片包括:
基于所述逆矩阵的第一加法分片第二参与方的逆矩阵的第二加法分片,第一参与方通过与第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的分片,得到相乘的运算结果的第一加法分片;
根据所述相乘的运算结果的第一加法分片和第二参与方的相乘的运算结果的第二加法分,第一参与方通过与第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述方法还包括:
根据所述回归特征的显著特性检验结果对特征进行筛选,确定适用特征。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本说明书实施例所提供的方法实施例可以在手持终端、计算机终端、服务器、服务器集群、移动终端、云服务器、区块链系统、分布式网络或者类似的运算装置中执行。所述的装置可以包括使用了本说明书实施例的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。以运行在服务器上的处理设备为例,图5是应用本发明实施例的一种基于隐私保护的线性回归特征显著性检验方法的服务器的硬件结构框图。如图5所示,服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本邻域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器10还可包括比图5中所示更多或者更少的组件,例如还可以包括其它的处理硬件,如内部总线、内存、数据库或多级缓存、显示器,或者具有与图5所示的不同的其他配置。
存储器200可用于存储应用软件的软件程序以及模块,处理器100通过运行存储在存储器200内的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其它非易失性固态存储器。在一些实例中,存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的区块链专用网络或者万维网或者通信供应商提供的网络。在一个实例中,传输模块300包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其它网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
基于上述所述的基于隐私保护的线性回归特征显著性检验方法实施例的描述,本说明书还提供一种基于隐私保护的线性回归特征显著性检验装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图6是本说明书提供的一个基于隐私保护的线性回归特征显著性检验装置实施例的模块结构示意图,如图6所示,所述的装置可以视为第一参与方,所述装置可以包括:
估计值计算模块60,可以用于基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
联合矩阵处理模块62,可以用于获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方(本地)持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据确定;
逆矩阵处理模块64,可以用于基于所述第一加法分片和第二参与方的第二加法分片,通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
标准差计算模块66,可以用于基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
统计量计算模块68,可以用于根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
显著性结果模块610,可以用于根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,在t检验中,采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 456327DEST_PATH_IMAGE054
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 588231DEST_PATH_IMAGE055
横向拼接在一起构成的联合矩阵
Figure 723677DEST_PATH_IMAGE064
,在联合矩阵
Figure 599229DEST_PATH_IMAGE063
中,每一列表示一个特征的
Figure 566048DEST_PATH_IMAGE066
个特征样本,每一行表示
Figure 993487DEST_PATH_IMAGE065
个特征,则特征数
Figure 740863DEST_PATH_IMAGE067
Figure 29893DEST_PATH_IMAGE057
为第一参与方A的特征个数,
Figure 116798DEST_PATH_IMAGE059
为第二参与方B的特征个数,
Figure 856084DEST_PATH_IMAGE056
为第一参与方A中单个特征的样本数,
Figure 949811DEST_PATH_IMAGE068
为第二参与方B中单个特征的样本数。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 370428DEST_PATH_IMAGE054
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 108577DEST_PATH_IMAGE055
纵向拼接在一起构成的联合矩阵
Figure 894130DEST_PATH_IMAGE092
,在联合矩阵
Figure 350519DEST_PATH_IMAGE062
中,每一列表示一个特征的
Figure 230619DEST_PATH_IMAGE066
个特征样本,每一行表示
Figure 292116DEST_PATH_IMAGE065
个特征,则特征数
Figure 842046DEST_PATH_IMAGE094
Figure 926677DEST_PATH_IMAGE057
为第一参与方A的特征个数,
Figure 485834DEST_PATH_IMAGE059
为第二参与方B的特征个数,
Figure 401838DEST_PATH_IMAGE056
为第一参与方A中单个特征的样本数,
Figure 504093DEST_PATH_IMAGE068
为第二参与方B中单个特征的样本数。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,所述原始矩阵包括采用下述方式构建生成:
参与方
Figure 935074DEST_PATH_IMAGE052
将本地私有数据中的特征按行构成原始矩阵
Figure 907710DEST_PATH_IMAGE052
或按列构成原始矩阵
Figure 943799DEST_PATH_IMAGE052
的转置矩阵,
Figure 366690DEST_PATH_IMAGE053
为相应的参与方,其中,在原始矩阵
Figure 144022DEST_PATH_IMAGE052
中,每一列表示一个特征的
Figure 248244DEST_PATH_IMAGE060
个特征样本,每一行表示
Figure 935577DEST_PATH_IMAGE061
个特征。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,所述计算所述回归系数的标准差的第一加法分片包括:
基于所述逆矩阵的第一加法分片第二参与方的逆矩阵的第二加法分片,第一参与方通过与第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的分片,得到相乘的运算结果的第一加法分片;
根据所述相乘的运算结果的第一加法分片和第二参与方的相乘的运算结果的第二加法分,第一参与方通过与第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,还包括:
特征选取模块,可以用于根据所述回归特征的显著特性检验结果对特征进行筛选,确定适用特征。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其它的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书中上述装置的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见或参照对应的方法实施例描述即可,每个实施例重点说明的都是与其它实施例的不同之处。相关之处参见方法实施例的部分说明即可。具体的可以根据前述方法实施例的描述的可以得到,且都应属于本申请所保护的实施范围之内,在此不做逐个实施例实现方案的赘述。
本说明书实施例提供的上述基于隐私保护的线性回归特征显著性检验方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用Windows操作系统的C++语言在PC端实现、基于Linux系统实现,或其它例如使用Android、iOS系统程序设计语言在智能终端实现,或者服务器集群、云处理/云计算、区块链,以及基于量子计算的处理逻辑实现等。基于前述方法实施例的描述,本说明书还提供一种隐私保护的终端设备。一个实施例中,可以包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书中任意一项所述方法的步骤。所述的终端设备具体的可以隐私保护下进行联合计算的任意一方的处理终端。
所述终端设备可以包括使用了本说明书任意一个方法实施例或包含本说明书的任意一个装置实施例的并结合必要的实施硬件的设备。
本说明书实施例提供的上述基于隐私保护的线性回归特征显著性检验方法或装置可以在计算机中由处理器执行相应的程序指令来实现。所述的程序指令可以存储在存储介质中。所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其它方式的可读存储介质,例如量子存储器、石墨烯存储器等等。因此,本说明书还提供一种存储介质,用于存储计算机可执行指令,处理器执行所述存储介质上的计算机可执行指令时实现:
基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方(本地)持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据确定;
基于所述第一加法分片和第二参与方的第二加法分片,通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
如前所述,上述所述的终端设备、存储介质的实施例具体的实现方式可以参见前述方法实施例的描述。并且根据方法相关实施例的描述还可以包括其它的实施方式,如处理器执行所述存储介质上的计算机可执行指令时可以本说明书中任意一个实施例所述方法的步骤,处理具体的实现方式可以参照对应方法实施例的描述,在此不作一一赘述。
上述对本说明书特定实施例进行了描述。基于上述实施例描述的可扩展的实施例仍在本说明书提供的实施范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供的一种基于隐私保护的线性回归特征显著性检验方法、装置,可以实现基于隐私保护的回归特征的两方线性回归系数的显著性检验。利用本说明书实施例的t检验的隐私保护计算方法,可以筛选出检验结果为显著、更加适用的特征,实现各个参与方所使用的特征的隐私保护的同时,使得利用多方数据建立更加精准、可靠的运算模型。
本说明书实施例并不局限于必须是计算机中64位浮点数的平方根倒数计算、符合标准秘密共享的矩阵乘法或加法秘密共享上的乘法运算的方式、行业通信标准、标准程序语言、数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的终端设备、服务器、装置、模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为服务器系统。当然,本申请不排除随着未来计算机技术的发展,实现上述实施例功能的计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一,第二等类似词语用来表示名称,而并不表示任何特定的顺序。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其它磁性存储设备或任何其它非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践。本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置和设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。

Claims (22)

1.一种基于隐私保护的线性回归特征显著性检验方法,包括:
设置回归特征的回归系数在t检验中的原假设为零,各参与方基于多方安全计算的线性回归训练确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值;
根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定的第二原始矩阵计算联合矩阵的对称矩阵的第一加法分片和第二加法分片;
基于所述第一加法分片和第二加法分片,两方联合计算隐私保护下的所述对称矩阵的逆矩阵的第一加法分片和第二加法分片;
基于所述逆矩阵的第一加法分片和第二加法分片、所述无偏估计值,第一参与方和第二参与方联合计算所述回归系数的标准差的第一加法分片和第二加法分片;
根据所述回归系数的标准差的第一加法分片和第二加法分片、回归系数的估计值计算回归特征的统计量;
根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
2.如权利要求1所述的方法,在t检验中,采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。
3.如权利要求1所述的方法,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 539166DEST_PATH_IMAGE001
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 795005DEST_PATH_IMAGE002
横向拼接在一起构成的联合矩阵
Figure 234076DEST_PATH_IMAGE003
,在联合矩阵
Figure 979179DEST_PATH_IMAGE004
中,每一列表示一个特征的
Figure 353659DEST_PATH_IMAGE005
个特征样本,每一行表示
Figure 980950DEST_PATH_IMAGE006
个特征,则特征数
Figure 348346DEST_PATH_IMAGE007
Figure 10271DEST_PATH_IMAGE008
为第一参与方A的特征个数,
Figure 555653DEST_PATH_IMAGE009
为第二参与方B的特征个数,
Figure 873502DEST_PATH_IMAGE010
为第一参与方A中单个特征的样本数,
Figure 919956DEST_PATH_IMAGE011
为第二参与方B中单个特征的样本数。
4.如权利要求1所述的方法,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 561022DEST_PATH_IMAGE001
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 401939DEST_PATH_IMAGE002
纵向拼接在一起构成的联合矩阵
Figure 207084DEST_PATH_IMAGE012
,在联合矩阵
Figure 667015DEST_PATH_IMAGE013
中,每一列表示一个特征的
Figure 37953DEST_PATH_IMAGE005
个特征样本,每一行表示
Figure 439985DEST_PATH_IMAGE006
个特征,则特征数
Figure 529163DEST_PATH_IMAGE014
Figure 855103DEST_PATH_IMAGE008
为第一参与方A的特征个数,
Figure 955914DEST_PATH_IMAGE009
为第二参与方B的特征个数,
Figure 669792DEST_PATH_IMAGE010
为第一参与方A中单个特征的样本数,
Figure 108251DEST_PATH_IMAGE011
为第二参与方B中单个特征的样本数。
5.如权利要求3或4所述的方法,所述原始矩阵包括采用下述方式构建生成:
参与方
Figure 34619DEST_PATH_IMAGE015
将本地私有数据中的特征按行构成原始矩阵
Figure 583412DEST_PATH_IMAGE015
或按列构成原始矩阵
Figure 77978DEST_PATH_IMAGE015
的转置矩阵,
Figure 876170DEST_PATH_IMAGE016
为相应的参与方,其中,在原始矩阵
Figure 809491DEST_PATH_IMAGE015
中,每一列表示一个特征的
Figure 134162DEST_PATH_IMAGE017
个特征样本,每一行表示
Figure 924263DEST_PATH_IMAGE018
个特征。
6.如权利要求1所述的方法,所计算所述回归系数的标准差的第一加法分片和第二加法分片包括:
基于所述逆矩阵的第一加法分片和第二加法分片,第一参与方和第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的第一加法分片和第二加法分片;
根据所述相乘的运算结果的第一加法分片和第二加法分,第一参与方和第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片和第二加法分片。
7.如权利要求1所述的方法,所述方法还包括:
根据所述回归特征的显著特性检验结果对特征进行筛选,确定适用特征。
8.一种基于隐私保护的线性回归特征显著性检验方法,包括:
第一参与方基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
第一参与方获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定;
基于所述第一加法分片和第二参与方的第二加法分片,第一参与方通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,第一参与方通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
9.如权利要求8所述的方法,在t检验中,采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。
10.如权利要求8所述的方法,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 85117DEST_PATH_IMAGE001
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 353287DEST_PATH_IMAGE002
横向拼接在一起构成的联合矩阵
Figure 532465DEST_PATH_IMAGE003
,在联合矩阵
Figure 696730DEST_PATH_IMAGE004
中,每一列表示一个特征的
Figure 469514DEST_PATH_IMAGE005
个特征样本,每一行表示
Figure 416741DEST_PATH_IMAGE006
个特征,则特征数
Figure 591371DEST_PATH_IMAGE007
Figure 582329DEST_PATH_IMAGE008
为第一参与方A的特征个数,
Figure 45672DEST_PATH_IMAGE009
为第二参与方B的特征个数,
Figure 655645DEST_PATH_IMAGE010
为第一参与方A中单个特征的样本数,
Figure 825726DEST_PATH_IMAGE011
为第二参与方B中单个特征的样本数。
11.如权利要求8所述的方法,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 128531DEST_PATH_IMAGE001
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 813591DEST_PATH_IMAGE002
纵向拼接在一起构成的联合矩阵
Figure 354818DEST_PATH_IMAGE012
,在联合矩阵
Figure 504039DEST_PATH_IMAGE013
中,每一列表示一个特征的
Figure 853112DEST_PATH_IMAGE005
个特征样本,每一行表示
Figure 25468DEST_PATH_IMAGE006
个特征,则特征数
Figure 977243DEST_PATH_IMAGE014
Figure 371184DEST_PATH_IMAGE008
为第一参与方A的特征个数,
Figure 15792DEST_PATH_IMAGE009
为第二参与方B的特征个数,
Figure 347548DEST_PATH_IMAGE010
为第一参与方A中单个特征的样本数,
Figure 306276DEST_PATH_IMAGE011
为第二参与方B中单个特征的样本数。
12.如权利要求10或11所述的方法,所述原始矩阵包括采用下述方式构建生成:
参与方
Figure 898932DEST_PATH_IMAGE015
将本地私有数据中的特征按行构成原始矩阵
Figure 104654DEST_PATH_IMAGE015
或按列构成原始矩阵
Figure 48339DEST_PATH_IMAGE015
的转置矩阵,
Figure 810759DEST_PATH_IMAGE016
为相应的参与方,其中,在原始矩阵
Figure 398866DEST_PATH_IMAGE015
中,每一列表示一个特征的
Figure 385277DEST_PATH_IMAGE017
个特征样本,每一行表示
Figure 940892DEST_PATH_IMAGE018
个特征。
13.如权利要求8所述的方法,所述计算所述回归系数的标准差的第一加法分片包括:
基于所述逆矩阵的第一加法分片第二参与方的逆矩阵的第二加法分片,第一参与方通过与第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的分片,得到相乘的运算结果的第一加法分片;
根据所述相乘的运算结果的第一加法分片和第二参与方的相乘的运算结果的第二加法分,第一参与方通过与第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片。
14.如权利要求8所述的方法,所述方法还包括:
根据所述回归特征的显著特性检验结果对特征进行筛选,确定适用特征。
15.一种基于隐私保护的线性回归特征显著性检验装置,包括:
估计值计算模块,用于基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
联合矩阵处理模块,用于获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定;
逆矩阵处理模块,用于基于所述第一加法分片和第二参与方的第二加法分片,通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
标准差计算模块,用于基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
统计量计算模块,用于根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
显著性结果模块,用于根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
16.如权利要求15所述的装置,其中,在t检验中,采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。
17.如权利要求15所述的装置,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 38161DEST_PATH_IMAGE001
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 74250DEST_PATH_IMAGE002
横向拼接在一起构成的联合矩阵
Figure 106928DEST_PATH_IMAGE003
,在联合矩阵
Figure 25205DEST_PATH_IMAGE004
中,每一列表示一个特征的
Figure 53729DEST_PATH_IMAGE005
个特征样本,每一行表示
Figure 475483DEST_PATH_IMAGE006
个特征,则特征数
Figure 6958DEST_PATH_IMAGE007
Figure 22319DEST_PATH_IMAGE008
为第一参与方A的特征个数,
Figure 992549DEST_PATH_IMAGE009
为第二参与方B的特征个数,
Figure 659023DEST_PATH_IMAGE010
为第一参与方A中单个特征的样本数,
Figure 361399DEST_PATH_IMAGE011
为第二参与方B中单个特征的样本数。
18.如权利要求15所述的装置,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵
Figure 988690DEST_PATH_IMAGE001
和将第二参与方B持有的私有数据构成的第二原始矩阵
Figure 106818DEST_PATH_IMAGE002
纵向拼接在一起构成的联合矩阵
Figure 768744DEST_PATH_IMAGE012
,在联合矩阵
Figure 642022DEST_PATH_IMAGE013
中,每一列表示一个特征的
Figure 881242DEST_PATH_IMAGE005
个特征样本,每一行表示
Figure 927696DEST_PATH_IMAGE006
个特征,则特征数
Figure 319494DEST_PATH_IMAGE014
Figure 160411DEST_PATH_IMAGE008
为第一参与方A的特征个数,
Figure 886927DEST_PATH_IMAGE009
为第二参与方B的特征个数,
Figure 674755DEST_PATH_IMAGE010
为第一参与方A中单个特征的样本数,
Figure 45693DEST_PATH_IMAGE011
为第二参与方B中单个特征的样本数。
19.如权利要求17或18所述的装置,所述原始矩阵包括采用下述方式构建生成:
参与方
Figure 198457DEST_PATH_IMAGE015
将本地私有数据中的特征按行构成原始矩阵
Figure 22057DEST_PATH_IMAGE015
或按列构成原始矩阵
Figure 613575DEST_PATH_IMAGE015
的转置矩阵,
Figure 978302DEST_PATH_IMAGE016
为相应的参与方,其中,在原始矩阵
Figure 426601DEST_PATH_IMAGE015
中,每一列表示一个特征的
Figure 878442DEST_PATH_IMAGE017
个特征样本,每一行表示
Figure 8072DEST_PATH_IMAGE018
个特征。
20.如权利要求15所述的装置,所述计算所述回归系数的标准差的第一加法分片包括:
基于所述逆矩阵的第一加法分片第二参与方的逆矩阵的第二加法分片,第一参与方通过与第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的分片,得到相乘的运算结果的第一加法分片;
根据所述相乘的运算结果的第一加法分片和第二参与方的相乘的运算结果的第二加法分,第一参与方通过与第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片。
21.一种隐私保护的终端设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求8-14中任意一项所述方法的步骤。
22.一种存储介质,用于存储计算机可执行指令,处理器执行所述存储介质上的计算机可执行指令时实现权利要求8-14中任意一项所述方法的步骤。
CN202011010612.0A 2020-09-23 2020-09-23 基于隐私保护的线性回归特征显著性检验方法、装置 Active CN111931241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011010612.0A CN111931241B (zh) 2020-09-23 2020-09-23 基于隐私保护的线性回归特征显著性检验方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011010612.0A CN111931241B (zh) 2020-09-23 2020-09-23 基于隐私保护的线性回归特征显著性检验方法、装置

Publications (2)

Publication Number Publication Date
CN111931241A true CN111931241A (zh) 2020-11-13
CN111931241B CN111931241B (zh) 2021-04-09

Family

ID=73335133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011010612.0A Active CN111931241B (zh) 2020-09-23 2020-09-23 基于隐私保护的线性回归特征显著性检验方法、装置

Country Status (1)

Country Link
CN (1) CN111931241B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597540A (zh) * 2021-01-28 2021-04-02 支付宝(杭州)信息技术有限公司 基于隐私保护的多重共线性检测方法、装置及系统
CN113094262A (zh) * 2021-03-29 2021-07-09 四川新网银行股份有限公司 一种基于数据库分库分表的生产数据进行测试的方法
CN113407987A (zh) * 2021-05-24 2021-09-17 支付宝(杭州)信息技术有限公司 保护隐私的确定业务数据特征有效值的方法及装置
CN114662156A (zh) * 2022-05-25 2022-06-24 蓝象智联(杭州)科技有限公司 一种基于匿名化数据的纵向逻辑回归建模方法
CN116502255A (zh) * 2023-06-30 2023-07-28 杭州金智塔科技有限公司 基于秘密分享的特征提取方法以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889447A (zh) * 2019-11-26 2020-03-17 支付宝(杭州)信息技术有限公司 基于多方安全计算检验模型特征显著性的方法和装置
CN111062487A (zh) * 2019-11-28 2020-04-24 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN111079939A (zh) * 2019-11-28 2020-04-28 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN111506922A (zh) * 2020-04-17 2020-08-07 支付宝(杭州)信息技术有限公司 多方联合对隐私数据进行显著性检验的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889447A (zh) * 2019-11-26 2020-03-17 支付宝(杭州)信息技术有限公司 基于多方安全计算检验模型特征显著性的方法和装置
CN111062487A (zh) * 2019-11-28 2020-04-24 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN111079939A (zh) * 2019-11-28 2020-04-28 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN111506922A (zh) * 2020-04-17 2020-08-07 支付宝(杭州)信息技术有限公司 多方联合对隐私数据进行显著性检验的方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597540A (zh) * 2021-01-28 2021-04-02 支付宝(杭州)信息技术有限公司 基于隐私保护的多重共线性检测方法、装置及系统
CN112597540B (zh) * 2021-01-28 2021-10-01 支付宝(杭州)信息技术有限公司 基于隐私保护的多重共线性检测方法、装置及系统
CN113094262A (zh) * 2021-03-29 2021-07-09 四川新网银行股份有限公司 一种基于数据库分库分表的生产数据进行测试的方法
CN113094262B (zh) * 2021-03-29 2022-10-18 四川新网银行股份有限公司 一种基于数据库分库分表的生产数据进行测试的方法
CN113407987A (zh) * 2021-05-24 2021-09-17 支付宝(杭州)信息技术有限公司 保护隐私的确定业务数据特征有效值的方法及装置
CN113407987B (zh) * 2021-05-24 2023-10-20 支付宝(杭州)信息技术有限公司 保护隐私的确定业务数据特征有效值的方法及装置
CN114662156A (zh) * 2022-05-25 2022-06-24 蓝象智联(杭州)科技有限公司 一种基于匿名化数据的纵向逻辑回归建模方法
CN116502255A (zh) * 2023-06-30 2023-07-28 杭州金智塔科技有限公司 基于秘密分享的特征提取方法以及装置
CN116502255B (zh) * 2023-06-30 2023-09-19 杭州金智塔科技有限公司 基于秘密分享的特征提取方法以及装置

Also Published As

Publication number Publication date
CN111931241B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN111931241B (zh) 基于隐私保护的线性回归特征显著性检验方法、装置
Al Badawi et al. Privft: Private and fast text classification with homomorphic encryption
CN111783130B (zh) 隐私保护的数据处理方法、装置及服务器
Zheng et al. Gan-based key secret-sharing scheme in blockchain
CN111428887B (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
US11164484B2 (en) Secure computation system, secure computation device, secure computation method, and program
US11294633B2 (en) Secure computation system, secure computation device, secure computation method, and program
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
Tjell et al. Privacy in distributed computations based on real number secret sharing
Li et al. Joint image compression and encryption based on sparse Bayesian learning and bit-level 3D Arnold cat maps
Liu et al. A new conjugate gradient projection method for convex constrained nonlinear equations
CN116167868A (zh) 基于隐私计算的风险识别方法、装置、设备以及存储介质
CN114925786A (zh) 基于秘密分享的纵向联邦线性支持向量分类方法
Al‐Momani et al. Penalty and related estimation strategies in the spatial error model
Wang et al. Secure collaboration in engineering systems design
CN116094686B (zh) 用于量子卷积计算的同态加密方法、系统、设备及终端
Su et al. Parameter estimation for fractional diffusion process with discrete observations
Mesfioui et al. On a new goodness‐of‐fit process for families of copulas
Cui et al. Estimation of change‐point for a class of count time series models
CN116957112A (zh) 联合模型的训练方法、装置、设备及存储介质
Davis et al. Indirect inference for time series using the empirical characteristic function and control variates
Mahinthakumar et al. Reconstructing groundwater source release histories using hybrid optimization approaches
CN105917400A (zh) 元素复制装置、元素复制方法、以及程序
CN113407988A (zh) 控制通信量的确定业务数据特征有效值的方法及装置
Sheng et al. Bit‐level image encryption algorithm based on fully‐connected‐like network and random modification of edge pixels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant