CN111931241A - 基于隐私保护的线性回归特征显著性检验方法、装置 - Google Patents
基于隐私保护的线性回归特征显著性检验方法、装置 Download PDFInfo
- Publication number
- CN111931241A CN111931241A CN202011010612.0A CN202011010612A CN111931241A CN 111931241 A CN111931241 A CN 111931241A CN 202011010612 A CN202011010612 A CN 202011010612A CN 111931241 A CN111931241 A CN 111931241A
- Authority
- CN
- China
- Prior art keywords
- matrix
- party
- participant
- regression
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012417 linear regression Methods 0.000 title claims abstract description 64
- 238000012360 testing method Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 173
- 238000004364 calculation method Methods 0.000 claims abstract description 83
- 238000012353 t test Methods 0.000 claims abstract description 55
- 238000000692 Student's t-test Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 349
- 238000013467 fragmentation Methods 0.000 claims description 98
- 238000006062 fragmentation reaction Methods 0.000 claims description 98
- 239000012634 fragment Substances 0.000 claims description 74
- 238000004422 calculation algorithm Methods 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 45
- 230000015654 memory Effects 0.000 claims description 35
- 238000003860 storage Methods 0.000 claims description 31
- 102000002274 Matrix Metalloproteinases Human genes 0.000 claims description 22
- 108010000684 Matrix Metalloproteinases Proteins 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 22
- 239000000654 additive Substances 0.000 claims description 14
- 230000000996 additive effect Effects 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 3
- 238000007667 floating Methods 0.000 description 35
- 230000008569 process Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 15
- 238000009826 distribution Methods 0.000 description 13
- 230000006872 improvement Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000000047 product Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000007795 chemical reaction product Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 125000004432 carbon atom Chemical group C* 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 229910021389 graphene Inorganic materials 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000499489 Castor canadensis Species 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 235000011779 Menyanthes trifoliata Nutrition 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000551 statistical hypothesis test Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书提供一种基于隐私保护的线性回归特征显著性检验方法、装置。一个方法实施例中,可以实现基于隐私保护的回归特征的两方线性回归系数的显著性检验。利用本说明书实施例的t检验的隐私保护计算方法,可以筛选出检验结果为显著、更加适用的特征,实现各个参与方所使用的特征的隐私保护的同时,可以使得利用多方数据建立更加精准、可靠的运算模型。
Description
技术领域
本说明书实施例属于密码学中多方安全计算的隐私保护技术领域,尤其涉及一种基于隐私保护的线性回归特征显著性检验方法、装置。
背景技术
目前多方参与的数据共享应用场景中,共享数据通常由多个参与方提供,各个参与方的私有数据保留在本地,不进行明文的聚合。多个参与方数据需要统一建立模型时,需保证参与方输出的输出结果为私有的,对其他参与方是不可见的。
在数据共享的应用场景中,多个参与方通常需要共同参与建立相应的模型。例如使用机器学习模型来进行模型预。所述的模型通常可以包括采用某种算法建立的回归方程。回归方程中通常包括应用场景下采集的多种特征信息。这些特征信息通常作为回归方程的自变量,预测对象作为回归方程的因变量。一般的,当自变量与因变量确实存在某种关系时,建立的回归方程才有意义,而目前构建回归方程使用的特征信息多种多样。因此,作为自变量的特征信息与作为因变量的预测对象是否有关,相关程度如何、能否作为回归方程使用的特征等对最终构建的模型的数据效果影响重大。
发明内容
本说明书的目的在于提供一种基于隐私保护的线性回归特征显著性检验方法、装置,可以在多方参与计算需要隐私保护的场景下,实现对回归特征的显著性检验。
本说明书实施例提供的一种基于隐私保护的线性回归特征显著性检验方法、装置至少通过以下方式实现:
一种基于隐私保护的线性回归特征显著性检验方法,包括:
设置回归特征的回归系数在t检验中的原假设为零,各参与方基于多方安全计算的线性回归训练确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值;
根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定的第二原始矩阵计算联合矩阵的对称矩阵的第一加法分片和第二加法分片;
基于所述第一加法分片和第二加法分片,两方联合计算隐私保护下的所述对称矩阵的逆矩阵的第一加法分片和第二加法分片;
基于所述逆矩阵的第一加法分片和第二加法分片、所述无偏估计值,第一参与方和第二参与方联合计算所述回归系数的标准差的第一加法分片和第二加法分片;
根据所述回归系数的标准差的第一加法分片和第二加法分片、回归系数的估计值计算回归特征的统计量;
根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
一种基于隐私保护的线性回归特征显著性检验方法,包括:
第一参与方基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
第一参与方获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定;
基于所述第一加法分片和第二参与方的第二加法分片,第一参与方通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,第一参与方通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
一种基于隐私保护的线性回归特征显著性检验装置,包括:
估计值计算模块,用于基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
联合矩阵处理模块,用于获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定;
逆矩阵处理模块,用于基于所述第一加法分片和第二参与方的第二加法分片,通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
标准差计算模块,用于基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
统计量计算模块,用于根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
显著性结果模块,用于根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
一种隐私保护的终端设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书中任意一个方法实施例所述的步骤。
一种存储介质,用于存储计算机可执行指令,处理器执行所述存储介质上的计算机可执行指令时实现本说明书中任意一个方法实施例所述的步骤。
本说明书实施例提供的一种基于隐私保护的线性回归特征显著性检验方法、装置,可以实现基于隐私保护的回归特征的两方线性回归系数的显著性检验。利用本说明书实施例的t检验的隐私保护计算方法,可以筛选出检验结果为显著、更加适用的特征,实现各个参与方所使用的特征的隐私保护的同时,使得利用多方数据建立更加精准、可靠的运算模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本说明书中一个原始数据纵向分布场景的应用场景示意图;
图2是本说明书中一个原始数据纵向横向场景的应用场景示意图;
图3是本说明书提供的一个基于隐私保护的线性回归特征显著性检验方法实施例的流程示意图;
图4是本说明书提供的可应用单个参与方的一个基于隐私保护的线性回归特征显著性检验方法实施例的流程示意图;
图5是应用本发明方法实施例的一个服务器的硬件结构示意框图;
图6是本说明书提供的一个基于隐私保护的线性回归特征显著性检验装置实施例的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都应当属于本说明书保护的范围。
在公司或企业进行业务运营时,通常会使用机器学习模型来进行模型预测,例如确定业务类别、业务运营风险或者进行业务运营决策。机器学习模型可以包括业务风险识别模型、业务分类模型、业务决策模型等等。机器学习模型通常会使用大量的模型特征作为模型输入特征。目前机器学习模型的模型特征通常是根据经验选择的。然而,在根据这种方式确定出的模型特征中,可能会存在对机器学习模型影响较低的模型特征,而这些模型特征的引入会增加机器学习模型的计算量,但对机器学习模型的预测精度很小,甚至没有影响。因此,一些场景中需要对机器学习模型使用的特征进行筛选,以从机器学习模型的模型特征集中筛除对机器学习模型影响较低的模型特征。
机器学习模型的特征数据可以来自于多个数据拥有方,例如,针对电子商务相关的机器学习模型,多个数据拥有方可以包括电子商务公司、快递公司和银行等等。各个数据拥有方可以拥有机器学习模型的特征数据中的部分数据。对于数据拥有方而言,数据是非常重要的资产。该多个数据拥有方希望共同使用彼此的特征数据来进行模型特征筛选,但又不想把各自的隐私数据提供给其它各个数据拥有方以防止自己的隐私数据泄露。
如前所述,目前多方参与的数据共享应用场景中,共享数据通常由多个参与方提供,各个参与方的私有数据保留在本地,不进行明文的聚合。多个参与方的私有数据需要统一建立模型时,需保证参与方输出的输出结果为私有的,对其他参与方是不可见的。同时,在一些场景下,各个参与方的参与模型构建或计算的一些或全部数据也需要进行隐私保护,不希望被其他参与方获知是使用了哪些特征参数或特征的取值等。而目前的一些隐私保护方案中对回归特征的显著性检验还未证实是否安全可靠,仍然存在一定的风险。尤其是参与方为两个参与方时,拿到联合计算结果的一方存在可以推出另一方的数据或估计值的风险。
一些应用场景中,构建的模型可以为回归方程,例如线性回归方程。回归方程中可以涉及多个参与方的一个或多个回归特征,回归特征可以作为方程的自变量参数,预测对象可以作为回归方程的因变量。而目前应用场景涉及的特征信息通常是多种多样,因而最终构建的模型中可能关联到多个回归特征。而在实际应用中,某些回归特征的自变量可能对因变量没有影响或者相关程度很小,可以不用参与回归方程的构建或计算,而有些回归特征的影响较大则,在构建回归方程时可以加入该回归特征。例如回归特征“性别”对是否给予放贷的风险评估影响较小,相关程度较低,可以认为其显著性较低,构建风险评估模型时可以不使用回归特征“性别”;而回归特征“月薪”、“信用”对是否给予放贷的风险评估影响较大,相关程度较高,则可以认为其显著性较高,构建风险评估模型时可以使用回归特征“月薪”、“信用”。所述的回归特征也可以称为参数或自变量。
回归分析是一种解析自变量和因变量并明确两者关系的统计方法。回归分析通常可以使用学生t检验来对回归系数检验其值是否为零。学生t检验,也称t检验,是一种统计上的假设检验,在原假设下其检验统计量服从学生t分布,在零假设为真的情况下检测数据的显著性。一般取0.05为置信度(显著性水平),表示从统计上说该回归项系数为零的概率有5%。得出各个自变量对目标变量产生的影响(显著性)后,可以筛选自变量,进一步建立/优化自变量与因变量的回归方程,减少相关程度低的回归特征,提高回归方程的质量,进而提高模型运算速度和输出结果的准确性、可靠性。
基于前述描述,本说明书的实施例提供了一种在多方参与的数据共享的应用场景中,可以实现基于隐私保护的回归特征的两方线性回归系数的显著性检验,筛选出显著性符合要求(例如回归系数不为零)的特征作为回归方程自变量。可以实现各个参与方所使用的特征的隐私保护的同时,使得利用多方数据建立更加精准、可靠的运算模型。同时对于参与方为两个参与方时,可以有效降低拿到联合计算结果的一方存在可以推出另一方的数据或估计值的风险。
本说明书的一些实施例中可以结合秘密共享来实现隐私保护。秘密共享是信息安全和数据保密的重要手段,它在重要信息和秘密数据的安全保存、传输以及合法利用中起着关键作用。秘密共享是基于密码学的多方安全计算(MPC:Multi-party Computation)中的一个解决隐私泄漏、实现隐私保护的重要手段。秘密分享目前普遍使用的秘密共享方案包括由Shamir和Blakley提出的门限秘密共享概念,其基本思想是将共享秘密s分成多个分片(share),分别交给不同参与方保管。只有超过门限数量的参与方将他们的share合并,才能恢复秘密。例如,满足只有大于等于一定数量的服务器联合才能重构共享的秘密,而任意少于所述一定数据的服务器不能得到该秘密的任何信息。
秘密分享可以用于隐私保护的多方安全计算中。具体应用中,各个参与方的输入数据分别作为联合计算的待处理数据的分片(share)。参与方本地的分片为其私有数据,对其他参与方而言通常是不可知。一般的多方安全计算中各个参与方分别拥有各自的私有数据,在不泄漏各自私有数据的情况下,能够联合计算出关于公共函数的结果。整个计算完成时,一般的,只有计算结果对参与方可知,且参与方通常不知其他参与方的数据以及计算过程的中间数据。计算结束后的结果可以仍然以秘密分享的方式分散在各参与方。在需要使用各个分片的运算结果的时候可以将各个参与方的数据合起来,还原出真实的原始数据。当然,秘密分享中每个参与方得到的分片通常是不相同的。当然,本说明书实施例不排除可以应用基于前述所述的多方安全计算的改进或变形、变换后的其他多方安全计算方式。
本说明书所涉及的隐私保护方案、装置、设备等,包括在数据存储、计算、通信等需要进行隐私保护的实现方案。例如基于隐私保护的逻辑回归的参数显著性检验、基于隐私保护的线性回归的参数显著性检验等。而浮点数的平方根倒数为是一项基础的运算,可以采用快速平方根算法来求取近似值。常规的快速平方根算法中使用的是牛顿迭代法,迭代使用的初始化的值常常不够精确的,需要较多轮数的迭代才能得到精度较高的结果。而迭代轮数越多则数据计算及通信效率越低。为此,本说明书的一些实施例进行基于隐私保护的两方线性回归特征显著性检验过程中还可以结合多方计算、隐私保护、快速平方根算法等实现高效的两方浮点数平方根倒数的计算处理,减少迭代次数、提高初始化经度,提高数据处理速度。应用在基于隐私保护的线性回归特征显著性检验中,可以有效的对算法进行优化,提高计算设备的处理效率。
在一些基于多项式插值秘密共享方案的两方安全计算中,通常有共享秘密的加法、减法有直接的计算方法,而乘法、除法和模运算则可以根据具体场景采用一些算法进行转换/转化来实现。如秘密共享的矩阵乘法(Secretmatrixmultiplication,SMM),计算过程中双方对对方数据不可见,最终乘法结果为双方计算结果之和。另外,输出也可以不合并,分别保留在各自参与方。
以两个参与方为例,Alice和Bob分别在本地将秘密(secret)切分成两个分片(share),一份留给自己,另一份发送至对方。生成预处理数据(Beaver Triples),Alice和Bob通过多轮参数的计算和交换,分别得到一个中间结果。例如通过一个半可信的服务生成预处理数据(u0,v0,z0)和(u1,v1,z1),并分别发送给Alice和Bob。半可信是指相信该服务器不会和Alice或Bob合谋窃取数据,但信任程度不足以能将原始数据都交给该服务器来做运算。Alice和Bob交换e=a-u和f=b-v的share后,各自计算出e和f。其中,u=u0+u1,即u的share为u0和u1,v=v0+v1即v的share为v0+v1。需要获得最终结果的一方收集Alice和Bob的中间结果,将这些中间结果相加,即可得到Alice和Bob所持有的两个分片的积。上述的处理过程可以称为两方联合计算。当然,其他的两方联合计算方式中也可以不使用中间服务器(中间平台),如上述的半可信的服务器可以,通过两方对随机数或预处理数据多轮的计算和交换来得到分片的积。
在本说明书基于隐私保护的两方线性回归特征显著性检验处理过程中可以使用一种新的隐私保护的平方根倒数的数据处理方法,对基于隐私保护平方根倒数算法(Secure Number Sqrt Invert,SNSI算法)进行优化。两方联合进行牛顿法迭代计算时将秘密分享中的加法分片转化成乘法分片,进而可以在基于隐私保护的平方根倒数算法中引入快速平方根算法的高精度初始化,从而减少后续基于隐私保护牛顿法的迭代次数,在保护用户隐私的同时提高了算法效率。
下面以一个具体的基于隐私保护下的两方线性回归特征显著性检验的实施场景进行说明。在本实施例中,可以采用t检验进行显著性检验,是一种t检验的隐私保护计算方法。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置、系统结构等,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或结构。所述的方法或系统结构的在实际中的装置、服务器、系统或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群、结合云计算或区块链技术的实施环境)。
当然,下述实施例的描述并不对基于本说明书实施例得到的其它可扩展技术方案构成限制。例如。具体的,本说明书提供的所述方法的一种实施例可以包括:
S0:设置回归特征的回归系数在t检验中的原假设为零。
为便于描述,本说明书的一些实施例中可以将第一参与方持有的私有数据构成的第一原始矩阵作为联合矩阵的第一分片,将第二参与方持有的私有数据构成的第二原始矩阵作为联合矩阵的第二分片。具体的应用场景中,第一参与方可以为存储有用户个人自然属性(如身高、年龄等)私有数据的一侧,如支付平台服务器,第二参与方可以为存储有用户信用记录(如房贷、信用卡逾期等)私有数据的一侧,如征信系统或保险公司一侧的服务器。
设置检验的原假设和备择假设分别为:
上式中,可以表示为参数的真实值,可以表示为的估计值。可以表示采用算法或函数对进行处理后得到其估计值。可以表示第个特征的回归系数。类似的,可以表示的估计值,可以表示的一种估计值等等。一些实施场景中,真实值可以是未知的,在t检验中可以假定它存在,然后用数据去拟合估计值。可以表示残差。可以表示方差,可以表示标准差。所有残差平方之和称误差平方和,又称残差平方和,可以用于表示。本实施例中可以将残差平方和除以自由度n-k(其中k为自变量个数+1)可以作为误差平方和的无偏估计值,可以用在统计量计算中来检验拟合的模型是否显著。
给定显著性水平,可得到临界值ta/2(),临界值通常是已知的,固定的。由样本求出统计量的数值,将其转换后可以得到。若> ta/2(n-k),则拒绝原假设;若则接受原假设。显著水平可以取或。在给定显著性水平下,接收或拒绝原假设。例如:在显著性水为0.05时,拒绝原假设,也就是说有95%的概率不等于0,则可以认为特征是显著的。这样可以基于特征的显著特性对特征进行筛选,可以筛选出检验结果为显著的特征。筛选出的特征可以在回归方程中使用。本说明书的一些实施例中,所述的回归特征在t检验中体现为参数,在回归方程中体现为自变量,因此,一些实施例中所述的参数、回归特征、自变量也可以表示相同的含义。
S2:各参与方基于多方安全计算的线性回归训练确定回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值。
设定线性回归方程、确定t检验中的原假设和统计量以及其他参量的定义等,可以由样本计算出统计量t的数值。而本说明书中的可以通过多方安全计算线性回归训练(MPC-Liner Regression)计算得到。
各参与方进行多方安全计算的线性回归训练(MPC-Liner Regression),并分别得到各自拥有特征的估计值的分片,可以表示第一参与方A拿到的回归系数的估计值的分片,可以表示第二参与方B拿到的回归系数的估计值的分片。还可以预测残差的估计值。将残差平方和除以自由度n-k可以得到无偏估计。具体的可以处理过程中,所述的联合矩阵的残差值的预测值。在原始数据纵向分布场景下,假如标签( MPC-LinerRegression训练集里的真实值)由第一参与方A拥有,则有,。进而可以由一次秘密共享的矩阵乘法(Secretmatrixmultiplication,SMM)得到。
所述的多方安全计算的线性回归训练的一种实现方案中,可以使用第一数据拥有方的特征数据,经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型,其中,所述预测模型是线性回归模型,所述预测模型的输出是所述待筛选模型特征的预测值,以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征,所述预测模型被水平切分为多个预测子模型,每个数据拥有方具有一个预测子模型,所述第一数据拥有方是预测模型训练的训练发起方,以及所述第二数据拥有方是预测模型训练的训练协同方,其中,所述预测模型的预测值被使用来确定所述待筛选模型特征的预测差值和方差膨胀因子,所述方差膨胀因子用于对所述待筛选模型特征进行模型特征筛选处理。当然,本领域技术人员可以参照申请号CN111079939A,发明名称为“基于数据隐私保护的机器学习模型特征筛选方法及装置”文献实现本说明书的各参与方基于多方安全计算的线性回归训练确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值,或者基于该文献进行相应方案的变形或变换来确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值。
通过前述方式,参与方A和B分片可以分别拥有某个回归特征的回归系数的其中一个分片和回归系数的标注差的无偏估计值的一个分片。若需要恢复原始数据,则第一参与方A和第二参与方B可以多方安全计算得到某个特征相对应的和。
在基于隐私保护的多方参与应用场景下,各个参与方均通常是各自保留自己的私有数据。可以将参数的显著性检验的各个参与方的私有数据作为联合矩阵整体的一个分片。各个参与方的私有数据为私有的,不希望被其他方知晓或被推算出来真实值或估计值。各个参与方的私有数据可以视为一个整体私有数据库,各个参与方分别持有这个私有数据库的一部分(一个分片)。本说明书的一些实施例可以将参与方原始的私有数据转换成矩阵。不同参与方的矩阵的组合可以一个联合矩阵。可以理解的是,客观上可以并不实际存在所述的整体私有数据库或者联合矩阵,也不存在实际将各个参与方的私有数据/矩阵进行组合或拼接的处理,各个参与方可以仍然本地持有各自的私有数据/矩阵。
各个参与方构建各自原始矩阵的处理中,各参与方可以分别将各自的私有数据按照预先设置的方式在本地构成原始矩阵,为相应的参与方。例如一个实现方式中可以按行构成原始矩阵,对于单个原始矩阵,列可以表示一个特征的多个样本,行可以表示不同的特征,这样,第一参与方A可以构成第一原始矩阵,第二参与方B可以构成第二原始矩阵。例如图1所示,对于第一原始矩阵,每一列可以表示一个特征的个特征样本,每一行表示个特征,每一行中一个特征有一个特征样本。相应的,对于第一原始矩阵,每一列可以表示一个特征的个特征样本,每一行表示个特征。这样,两个参与方分别持有联合矩阵的其中一个分片。因此,一些实施例中所述原始矩阵可以采用下述方式构建生成:
上述中的原始矩阵可以以私有数据的特征按行构成原始矩阵。若以私有数据的特征按列构成的原始矩阵则可以视为原始矩阵的转置矩阵。对于本说明书实施例而言,私有数据的特征按行或按列构成的原始矩阵是可以相互转化的,按行构建原始矩阵可以视为按列构建的原始矩阵的另一种特征的矩阵体现形式。因此,本说明书描述的按行构建原始矩阵的实施例,应当理解为实质上包含了按列构建原始矩阵的实施方案,都应属于本说明书权利要求所包含的实施范围。
需要说明的是,本实施例中所述的联合矩阵以及其他实施例所述的联合矩阵存在于概念中,在实际处理中两个参与方并没有实际将各自本地的私有数据构建成原始矩阵进行拼接。所述的联合矩阵和联合矩阵是便于本说明书实施例方案的描述,假设将第一原始矩阵和第二原始矩阵拼接形成的假想的矩阵。
具体的例如,在两个参与方的实施场景下,各个参与方可以先在本地将自己的私有数据转换成矩阵,所述的联合矩阵可以视为由各个参与方的私有数据转换成矩阵后按照一定顺序拼接,或者将各个参与方的私有数据按照一定的行或列间隔拼接形成等。但联合矩阵的各个分片仍然是保持在各个参与方的本地,并没有将各个参与方的私有数据实际拼接在一起构成一个新的矩阵数据集合。一般的,各个参与方可以采用相同的预先设置的方式构成原始矩阵。也可以设置构建的原始矩阵的条件,如指定原始矩阵的行数和/或列数,项数不够的可以采用零值填充。
拼接的预设方式可以包括多种数据组成方式。本说明书提供的一个联合矩阵的数据组成方案中,可以视为将第一原始矩阵和第二原始矩阵横向(如水平方向)拼接确定。这样拼接方式构成的联合矩阵相当于各个参与方的数据在联合矩阵中是纵向分布、垂直切分的,如图1所述。在联合矩阵中,每一列可以表示一个特征的个特征样本,每一行表示个特征,则有特征数。采用上述方式构成的联合矩阵可以称为原始数据纵向分布场景(Vertically-partitioned data)。具体的,本说明书提供的所述方法的另一个实施例中,所述联合矩阵可以视为采用下述方式构建的假想矩阵:
S20:将第一参与方A持有的私有数据构成的第一原始矩阵和将第二参与方B持有的私有数据构成的第二原始矩阵横向拼接在一起构成的联合矩阵,在联合矩阵中,每一列表示一个特征的个特征样本,每一行表示个特征,则特征数,为第一参与方A的特征个数,为第二参与方B的特征个数,为第一参与方A中单个特征的样本数,为第二参与方B中单个特征的样本数。
在本说明书的一些实施例中,是的逆矩阵。在矩阵处理中,矩阵其转置矩阵相乘可以得到方阵,这样便可以计算特征的值。本说明书中基于隐私保护的矩阵求逆算法适用于所有特征值大于0的矩阵,为实对称矩阵,满足所有特征值大于0的条件。因此,所有参与方可以联合计算:
其中,可以由相应的参与方本地求出,例如第一参与方A可以由自己本地构建的第一原始矩阵本地求出,第二参与方B可以由自己本地构建的第二原始矩阵本地求出需要两方联合计算,可以由第一参与方A与第二参与方B基于隐私保护的SMM算法联合算出,可由计算结果转置得到。其中,或的结果是加法分片,结果由两方分别保存。参与方将矩阵中本地计算的部分按照本地计算结果进行拼接可以还原或原始数据,无本地计算结果的部分用0填充()只有一方拥有,另一方在该位置补。经过上述处理后,各参与方拥有矩阵,其中。可以表示第一参与方A所拥有的对称矩阵中的第一加法分片,可以表示第一参与方B所拥有的对称矩阵中的第二加法分片。
上述实施例描述了原始数据纵向分布场景下计算的第一加法分片和第二加法分片的处理过程。本说明书还提供另一种原始数据横向分布场景 (Horizontally-partitioned data)下的实施例。前述中各个参与方可以按照预先设置的方式构成原始矩阵,例如按行构成原始矩阵。另一个联合矩阵的数据组成方案中,可以视为将第一原始矩阵和第二原始矩阵在垂直方向拼接确定,即纵向拼接在一起,构成另一种数据场景下的联合矩阵。这样拼接方式构成的联合矩阵相当于各个参与方的数据在联合矩阵中是横向分布、水平切分的,如图2所示。在图2的原始数据横向分布场景示例中,每个参与方拥有相同的特征,各个参与方拥有特征的部分样本。在私有数据横向分布场景的联合矩阵中,每一列可以表示一个特征的个特征样本,每一行表示个特征,则有特征数。因此,所述方法的另一个实施例中,所述联合矩阵可以视为采用下述方式构建的假想矩阵:
S22:将第一参与方A持有的私有数据构成的第一原始矩阵和将第二参与方B持有的私有数据构成的第二原始矩阵纵向拼接在一起构成的联合矩阵,在联合矩阵中,每一列表示一个特征的个特征样本,每一行表示个特征,则特征数,为第一参与方A的特征个数,为第二参与方B的特征个数,为第一参与方A中单个特征的样本数,为第二参与方B中单个特征的样本数。
同样的,在原始数据横向分布场景的联合矩阵中,参照前述原始数据纵向分布中的数据处理方式,各参与方可以基于多方安全计算的线性回归训练(MPC-LinerRegression)确定回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值。具体的可以处理过程中,。在原始数据横向分布场景下,参与方分别持有各自部分样本的标签,如第一参与方的标签,在一列中可以表示为(,以及第二参与方的标签,在一列中可以表示为(),为第一参与方A拥有的标签预测结果的一个分片,为第一参与方B拥有的标签预测结果的另一个分片。参与方分别将各自标签补全为(存储标签的样本对应的位置为真实标签值,其余位置补0。这样原始数据横向分布场景下,的个数加的个数据等于个数。则有,)。进而可以由一次SMM得到原始数据横向分布场景下的。
前述无论是原始数据纵向分布场景还是原始数据横向分布场景的联合矩阵,经过本地计算或结合多方联合计算联合矩阵的对称矩阵,每个参与方均可以得到对称均在其中的一个加法分片。当然,本说明书的其他实施例中,各个参与方的原始矩阵还可以采用其他方式拼接成联合矩阵,或者各个参与方也可以采用其他方式构成原始矩阵。例如各个参与方将原始数据按行构成矩阵,或者每个参与方的原始矩阵按行或列间隔拼接成联合矩阵等。
S6:基于所述第一加法分片和第二加法分片,两方联合计算隐私保护下的所述对称矩阵的逆矩阵的第一加法分片和第二加法分片。
所述的SMI是基于隐私保护下,对矩阵进行求逆运算的一种处理算法。具体的,应用在矩阵中的SMI算法中的一个处理示例中:
迭代公式可以设置为:
由于迭代轮数会泄露矩阵大小信息,本算法迭代轮数可以为超参数。前述SMI算法中浮点数指的是,本身为浮点数(以有限域下的整数形式存储)。上述处理过程中的一些实现方式具体的也可以参照SNSI算法描述,例如关于将64位浮点数的存储值按照64位整数的存储方式、两方联合进行牛顿法迭代计算时将秘密分享中的加法分片转化成乘法分等。
S8:基于所述逆矩阵的第一加法分片和第二加法分片、所述无偏估计值,第一参与方和第二参与方联合计算所述回归系数的标准差的第一加法分片和第二加法分片。
前述S6的处理后可以得到)的运算结果的第一加法分片和第二加法分片和。那么可以进一步的通过1次SMM算法计算得到()。对于回归系数的标准差可以视为()的平方根倒数,其可以通过SMM算法计算得到。具体的可以采用本说明书实施例中相关基于隐私保护的多方安全计算方式得到)或者,也可以采用其他的算法进行计算得到。例如采用隐私保护下的多方安全计算的快速平方根算法求解。
本说明书提供的S8的一个计算所述回归系数的标准差的第一加法分片和第二加法分片处理过程中可以包括:
在计算统计量的过程中,本实施例中可以计算,这是一个乘积的结果。基于隐私保护的秘密分享中,可以通过1次SMM算法将两方乘积的结果转换为加法分片的结果,乘法结果为双方加法分片计算结果之和。具体的,基于所述逆矩阵的第一加法分片和第二加法分片、标准差的估计值联合计算,其中第一参与方A得到的所述相乘的运算结果的第一加法分片为,第二参与方B得到的所述相乘的运算结果的第而加法分片为。
所述的SNSI算法是对基于隐私保护平方根倒数算法的优化,其两方联合进行牛顿法迭代计算时将秘密分享中的加法分片转化成乘法分片,进而可以在基于隐私保护的平方根倒数算法中引入快速平方根算法的高精度初始化,从而减少后续基于隐私保护牛顿法的迭代次数,在保护用户隐私的同时提高了算法效率。
下面对本说明书实施例中所涉及到的SNSI算法进行描述。需要说明的是,其中,为便于本领域技术人员对理解和描述(算法常用参数及其含义),SNSI算法描述中所涉及的参数符号含义可以仅在SNSI算法描述中有效,并不对本说明书基于隐私保护的线性回归特征显著性检验方法、装置中相同的参数符号造成限制或不清楚的理解。例如,在SNSI算法描述中,可以表示为待处理数据,为迭代次数,在基于隐私保护的线性回归特征显著性检验方法中,可以表示单个参数的样本数,为参数个数。当然,在SNSI算法描述中,与本说明书基于隐私保护的线性回归特征显著性检验方法实施例存在相同的参数符号也可以采用其他英文字母或结合数字、字符的符合替代,如L、O、Q、R、U、Z等以及相应小写字母或字母组合或结合上下标来进行区别。
例如一个实施例应用场景中,假设数据拥有者有一个待处理数据,现在将秘密共享给两个参与方A和B。两个参与方分别拥有浮点数在秘密分享下的两个分片(,)中的一个。为便于描述,第一参与方A拥有的分片可以记做,第一参与方B拥有的加法分片可以记做。其中,(分片,属于有限域或环)。两个参与方可以分别各自以64位浮点数的形式将加法分片存储在各自的计算设备上。第一参与方A和第二参与方B联合进行牛顿法迭代计算的平方根倒数。在计算过程中,通过两次秘密分享和一次迭代计算,参与方A和参与方B分别各自得到浮点数的平方根倒数的加法分片()中的其中一个。
秘密分享需要处理数据的时候,一方将自己的数据发给另一方,或者将数据一起发给第三方(计算方)。一些实施例中可以采用两个参与方A和B通过计算和交换来实现将加法分片转化为乘法分片。具体的可以秘密共享的矩阵乘法,计算过程中双方对对方数据不可见,最终乘法结果为双方计算结果之和。
例如一个实施例的处理示例中,第一参与方A本地使用伪随机数生成器生成随机数并求。第一参与方可以进一步得到。可以由第二参与方通过与第一参与方秘密分享乘法联合计算得到。其中,,。第一参与方A与第二参与方B通过秘密分享乘法联合计算,此时第一参与方可以得到,第二参与方可以得到。参与方A计算并将发送至第二参与方B。在秘密分享处理中,一般的,第一参与方不可单独发送和给另一个参与方。第二参与方B计算。此时。和可以作为待处理数据的一种乘法分片。
第一参与方和第二参与可以分别利用各自的乘法分片在本地计算迭代估计值的初始值的乘法分片。例如在利用快速平方根算法时,可以采用下述方式确定迭代估计值的初始值的乘法分片:
在64位浮点类型的数据中(64位浮点数),P为64。所述的常数C在64位浮点类型的数据中(64位浮点数)可以为0x5fe6eb50c7b537a9。一些实施例中,所述按照P位整数的存储方式进行读取可以表示将数据按照P位整数的方式进行读取。在本实施例中,秘密分享的分片仍然是整数,在存储的时候是以P位的浮点数存储的。这P位的浮点数从整体看作是一个整数(分片),读取出来的时候是一个以P位浮点数形式存储的一个整数。P可以根据数据存储的位数取值。
以第一参与方A为例:
根据所述迭代估计值的初始值的乘法分片,通过第一参与方和第二参与方的联合计算进行基于隐私保护的浮点数平方根倒数的牛顿迭代处理,得到所述待处理数据的平方根倒数的加法分片。
上述各个参与方可以各自得到的迭代估计值的初始值的乘法分片。该迭代估计值的初始值的乘法分片通常属于参与方的私密数据,由参与方本地保存。进行求解平方根倒数的处理时可以通过参与方的数据计算和交互来联合计算,或者第三方进行求解平方根倒数的处理时可以通过与参与方的数据计算和交互来联合计算,确定各个参与方确定了各自的迭代估计值的初始值的乘法分片。本说明书一些实施例中所述的进行计算浮点数平方根倒数的牛顿迭代处理可以指使用牛顿迭代法迭代计算浮点数的平方根倒数,一些实施例中并不要一定要计算出浮点数的平方根倒数的分片。本说明书实施例方案的目的之一是在隐私保护场景中计算平方根倒数的一些算法中将秘密分享中的加法分片转化成乘法分片,可以引入快速平方根算法(快速平方根算法中使用到牛顿迭代法)的高精度初始化,从而减少后续基于隐私保护的牛顿法的迭代次数,在保护用户隐私的同时提高了算法效率。另一方面,基于隐私保护的浮点数平方根倒数的牛顿迭代处理还可以使得两个参与方各自得到待处理数据平方根倒数的其中一个加法分片或。这里的加法分片可以满足。和也可以为以浮点数形式存储的整数。
具体的一个处理实施例中,可以设迭代初始值。两个参与方可拥有该迭代初始值。本说明书实施例可以使用快速平方根算法计算平方根倒数。在快速平方根算法中使用到牛顿迭代公式,其中为第次迭代。当时,即表示迭代初始值,相应的,。
将上述迭代初始值迭代牛顿迭代公式进行一次迭代,可得:
在上述公式2中,减数可通过第一参与方A和第二参与方B进行一次秘密分享计算得到。减法的后半部分,即在被减数中,与由第一参与方A存储,可以实现第一参与方A的本地计算;与由第二参与方B存储,可以实现第二参与方B的本地计算。因此,可视为。这样,被减数可通过第一参与方A和第二参与方B进行另一次秘密分享进行计算。这样,本说明书实施例的方案中,牛顿迭代计算过程中使用两次秘密分享乘法,共迭代1次,两个参与方可以分别各自得到待处理数据平方根倒数的两个加法分片中的其中一个。假设迭代后第一参与方A得到的第一加法分片记为,第二参与方B得到的第二加法分片记为。加法分片、可以同与和一样为浮点数形式存储的整数,以及属于有限域或环。此时,。
基于前述方法实施例中所涉及到的SNSI算法的描述中,一个实施例中,第一参与方通过本地计算和秘密分享计算出第二参与方在乘法分片中使用的预处理数据,并将所述预处理数据发送至所述第二参与方,以确定将第一参与方与第二参与方秘密分享下的加法分片转化成乘法分片的结果,可以包括:
基于前述方法实施例的描述,所述方法的另一个实施例中,所述第一参与方利用第一参与方的乘法分片在本地计算初始化的迭代估计值的乘法分片包括:
基于前述方法实施例的描述,所述方法的另一个实施例中,其中,P为2的T次方,T为大于5的整数;以及当P取值为5时,常数C取值0x5fe6eb50c7b537a9。
前述中的加减法和乘法可以视为矩阵加减法和乘法,取模运算mod可以定义为对矩阵每个元素都取模,则前述SNSI算法的方法和涉及的公式,可以适用于矩阵加减法和乘法。
S10:根据所述回归系数的标准差的第一加法分片和第二加法分片、回归系数的估计值计算回归特征的统计量。
S12:根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
一般的,得到上述t值(,回归特征的统计量)后,可以将其换算成P值。P值可以直接与显著性水平比较。P值,通常是指当原假设为真时,所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,根据小概率原理,有理由拒绝原假设,P值越小,拒绝原假设的理由越充分。在此,可以将t值换算成P值后(可以记为)再进行比较。具体的,在给定显著性水平a下,将换算成,与临界值ta/2()进行比较。
若> ta/2()则拒绝原假设。若统计量大于相应的临界值ta/2(),则可以表示在给定显著性水平a,例如a为0.05时,拒绝原假设。也就是说有95%的概率不等于0,此时可以认为特征是显著的。这样可以基于特征的显著特性对特征进行筛选,可以筛选出检验结果为显著、更加适用的特征,以便进行如构建回归方程等场景的应用。如筛选出的特征可以确定在基于隐私保护的线性回归方程中使用,或者多方参与的数据共享应用场景中使用的特征等。
前述实施例详细描述了一种基于隐私保护的线性回归特征显著性检验方法的处理实现过程。需要说明的是,所述的各参与方基于多方安全计算的线性回归训练确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值计算处理可以在确定t检验中的原假设后进行处理,也可以在计算后处理,获取其他计算之前的任意时机处理。类似的,前述实施例步骤的描述以及步骤表示符号S0、S2等也并不限定步骤的执行顺序。基于前述实施例描述,本说明书还提供一种基于隐私保护的线性回归特征显著性检验方法,如图3所示,可以包括:
S30:设置回归特征的回归系数在t检验中的原假设为零,各参与方基于多方安全计算的线性回归训练确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值;
S32:根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定的第二原始矩阵计算联合矩阵的对称矩阵的第一加法分片和第二加法分片;
S34:基于所述第一加法分片和第二加法分片,两方联合计算隐私保护下的所述对称矩阵的逆矩阵的第一加法分片和第二加法分片;
S36:基于所述逆矩阵的第一加法分片和第二加法分片、所述无偏估计值,第一参与方和第二参与方联合计算所述回归系数的标准差的第一加法分片和第二加法分片;
S38:根据所述回归系数的标准差的第一加法分片和第二加法分片、回归系数的估计值计算回归特征的统计量;
S310:根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,在t检验中,可以采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。如下式所示:
基于前述数据纵向分布场景方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方持有的私有数据构成的第一原始矩阵和将第二参与方持有的私有数据构成的第二原始矩阵横向拼接在一起构成的联合矩阵,在联合矩阵中,每一列表示一个特征的个特征样本,每一行表示个特征,则特征数,为第一参与方A的特征个数,为第二参与方B的特征个数,为第一参与方A中单个特征的样本数,为第二参与方B中单个特征的样本数。
基于前述原始数据横向分布场景方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵和将第二参与方B持有的私有数据构成的第二原始矩阵纵向拼接在一起构成的联合矩阵,在联合矩阵中,每一列表示一个特征的个特征样本,每一行表示个特征,则特征数,为第一参与方A的特征个数,为第二参与方B的特征个数,为第一参与方A中单个特征的样本数,为第二参与方B中单个特征的样本数。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述原始矩阵包括采用下述方式构建生成:
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所计算所述回归系数的标准差的第一加法分片和第二加法分片包括:
基于所述逆矩阵的第一加法分片和第二加法分片,第一参与方和第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的第一加法分片和第二加法分片;
根据所述相乘的运算结果的第一加法分片和第二加法分,第一参与方和第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片和第二加法分片。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述方法还包括:
根据所述回归特征的显著特性检验结果对特征进行筛选,确定适用特征。
本说明书实施例提供的一种基于隐私保护的线性回归特征显著性检验方法,可以实现基于隐私保护的回归特征的两方线性回归系数的显著性检验。利用本说明书实施例的t检验的隐私保护计算方法,可以筛选出检验结果为显著、更加适用的特征,实现各个参与方所使用的特征的隐私保护的同时,使得利用多方数据建立更加精准、可靠的运算模型。
前述方法实施例描述了两个参与方基于隐私保护下共同参与两方线性回归特征显著性检验的处理过程。基于此,本说明书还提供一种可以应用于单个参与方一侧的基于隐私保护的线性回归特征显著性检验方法,可以应用于如前述所述的参与方A或者B一侧的设备。具体的,本说明书提供的另一种基于隐私保护的线性回归特征显著性检验方法,如图4所示,可以包括:
S40:第一参与方基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
S42:第一参与方获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定;
S44:基于所述第一加法分片和第二参与方的第二加法分片,第一参与方通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
S46:基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,第一参与方通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
S48:根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
S410:根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
本实施例中所述的第一参与方可以表示两个参与方中的其中一个,并不具体特征某个参与方。例如,当所述第一参与方为前述所述的A时,相应的第二参与方可以为B。若第一参与方为B,那么第二参与方则可以为A。
同样的,基于前述方法实施例的描述,本说明书提供的所述方法的另一个实施例中,在t检验中,可以采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。
基于前述数据纵向分布场景方法相关实施例描述,本说明书提供的所述方法的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵和将第二参与方B持有的私有数据构成的第二原始矩阵横向拼接在一起构成的联合矩阵,在联合矩阵中,每一列表示一个特征的个特征样本,每一行表示个特征,则特征数,为第一参与方A的特征个数,为第二参与方B的特征个数,为第一参与方A中单个特征的样本数,为第二参与方B中单个特征的样本数。
基于前述原始数据横向分布场景方法相关的实施例描述,本说明书提供的所述方法的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵和将第二参与方B持有的私有数据构成的第二原始矩阵纵向拼接在一起构成的联合矩阵,在联合矩阵中,每一列表示一个特征的个特征样本,每一行表示个特征,则特征数,为第一参与方A的特征个数,为第二参与方B的特征个数,为第一参与方A中单个特征的样本数,为第二参与方B中单个特征的样本数。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述原始矩阵包括采用下述方式构建生成:
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所计算所述回归系数的标准差的第一加法分片包括:
基于所述逆矩阵的第一加法分片第二参与方的逆矩阵的第二加法分片,第一参与方通过与第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的分片,得到相乘的运算结果的第一加法分片;
根据所述相乘的运算结果的第一加法分片和第二参与方的相乘的运算结果的第二加法分,第一参与方通过与第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片。
基于前述方法实施例描述,本说明书提供的所述方法的另一个实施例中,所述方法还包括:
根据所述回归特征的显著特性检验结果对特征进行筛选,确定适用特征。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本说明书实施例所提供的方法实施例可以在手持终端、计算机终端、服务器、服务器集群、移动终端、云服务器、区块链系统、分布式网络或者类似的运算装置中执行。所述的装置可以包括使用了本说明书实施例的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。以运行在服务器上的处理设备为例,图5是应用本发明实施例的一种基于隐私保护的线性回归特征显著性检验方法的服务器的硬件结构框图。如图5所示,服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本邻域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器10还可包括比图5中所示更多或者更少的组件,例如还可以包括其它的处理硬件,如内部总线、内存、数据库或多级缓存、显示器,或者具有与图5所示的不同的其他配置。
存储器200可用于存储应用软件的软件程序以及模块,处理器100通过运行存储在存储器200内的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其它非易失性固态存储器。在一些实例中,存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的区块链专用网络或者万维网或者通信供应商提供的网络。在一个实例中,传输模块300包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其它网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
基于上述所述的基于隐私保护的线性回归特征显著性检验方法实施例的描述,本说明书还提供一种基于隐私保护的线性回归特征显著性检验装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图6是本说明书提供的一个基于隐私保护的线性回归特征显著性检验装置实施例的模块结构示意图,如图6所示,所述的装置可以视为第一参与方,所述装置可以包括:
估计值计算模块60,可以用于基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
联合矩阵处理模块62,可以用于获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方(本地)持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据确定;
逆矩阵处理模块64,可以用于基于所述第一加法分片和第二参与方的第二加法分片,通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
标准差计算模块66,可以用于基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
统计量计算模块68,可以用于根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
显著性结果模块610,可以用于根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,在t检验中,采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵和将第二参与方B持有的私有数据构成的第二原始矩阵横向拼接在一起构成的联合矩阵,在联合矩阵中,每一列表示一个特征的个特征样本,每一行表示个特征,则特征数,为第一参与方A的特征个数,为第二参与方B的特征个数,为第一参与方A中单个特征的样本数,为第二参与方B中单个特征的样本数。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,所述联合矩阵包括采用下述方式构建的假想矩阵:
将第一参与方A持有的私有数据构成的第一原始矩阵和将第二参与方B持有的私有数据构成的第二原始矩阵纵向拼接在一起构成的联合矩阵,在联合矩阵中,每一列表示一个特征的个特征样本,每一行表示个特征,则特征数,为第一参与方A的特征个数,为第二参与方B的特征个数,为第一参与方A中单个特征的样本数,为第二参与方B中单个特征的样本数。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,所述原始矩阵包括采用下述方式构建生成:
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,所述计算所述回归系数的标准差的第一加法分片包括:
基于所述逆矩阵的第一加法分片第二参与方的逆矩阵的第二加法分片,第一参与方通过与第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的分片,得到相乘的运算结果的第一加法分片;
根据所述相乘的运算结果的第一加法分片和第二参与方的相乘的运算结果的第二加法分,第一参与方通过与第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片。
基于前述方法实施例描述,本说明书提供所述装置的另一个实施例中,还包括:
特征选取模块,可以用于根据所述回归特征的显著特性检验结果对特征进行筛选,确定适用特征。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其它的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书中上述装置的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见或参照对应的方法实施例描述即可,每个实施例重点说明的都是与其它实施例的不同之处。相关之处参见方法实施例的部分说明即可。具体的可以根据前述方法实施例的描述的可以得到,且都应属于本申请所保护的实施范围之内,在此不做逐个实施例实现方案的赘述。
本说明书实施例提供的上述基于隐私保护的线性回归特征显著性检验方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用Windows操作系统的C++语言在PC端实现、基于Linux系统实现,或其它例如使用Android、iOS系统程序设计语言在智能终端实现,或者服务器集群、云处理/云计算、区块链,以及基于量子计算的处理逻辑实现等。基于前述方法实施例的描述,本说明书还提供一种隐私保护的终端设备。一个实施例中,可以包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书中任意一项所述方法的步骤。所述的终端设备具体的可以隐私保护下进行联合计算的任意一方的处理终端。
所述终端设备可以包括使用了本说明书任意一个方法实施例或包含本说明书的任意一个装置实施例的并结合必要的实施硬件的设备。
本说明书实施例提供的上述基于隐私保护的线性回归特征显著性检验方法或装置可以在计算机中由处理器执行相应的程序指令来实现。所述的程序指令可以存储在存储介质中。所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其它方式的可读存储介质,例如量子存储器、石墨烯存储器等等。因此,本说明书还提供一种存储介质,用于存储计算机可执行指令,处理器执行所述存储介质上的计算机可执行指令时实现:
基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方(本地)持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据确定;
基于所述第一加法分片和第二参与方的第二加法分片,通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
如前所述,上述所述的终端设备、存储介质的实施例具体的实现方式可以参见前述方法实施例的描述。并且根据方法相关实施例的描述还可以包括其它的实施方式,如处理器执行所述存储介质上的计算机可执行指令时可以本说明书中任意一个实施例所述方法的步骤,处理具体的实现方式可以参照对应方法实施例的描述,在此不作一一赘述。
上述对本说明书特定实施例进行了描述。基于上述实施例描述的可扩展的实施例仍在本说明书提供的实施范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供的一种基于隐私保护的线性回归特征显著性检验方法、装置,可以实现基于隐私保护的回归特征的两方线性回归系数的显著性检验。利用本说明书实施例的t检验的隐私保护计算方法,可以筛选出检验结果为显著、更加适用的特征,实现各个参与方所使用的特征的隐私保护的同时,使得利用多方数据建立更加精准、可靠的运算模型。
本说明书实施例并不局限于必须是计算机中64位浮点数的平方根倒数计算、符合标准秘密共享的矩阵乘法或加法秘密共享上的乘法运算的方式、行业通信标准、标准程序语言、数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的终端设备、服务器、装置、模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为服务器系统。当然,本申请不排除随着未来计算机技术的发展,实现上述实施例功能的计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一,第二等类似词语用来表示名称,而并不表示任何特定的顺序。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其它磁性存储设备或任何其它非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践。本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置和设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。
Claims (22)
1.一种基于隐私保护的线性回归特征显著性检验方法,包括:
设置回归特征的回归系数在t检验中的原假设为零,各参与方基于多方安全计算的线性回归训练确定t检验中回归系数的估计值和联合矩阵的误差平方和的无偏估计值;
根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定的第二原始矩阵计算联合矩阵的对称矩阵的第一加法分片和第二加法分片;
基于所述第一加法分片和第二加法分片,两方联合计算隐私保护下的所述对称矩阵的逆矩阵的第一加法分片和第二加法分片;
基于所述逆矩阵的第一加法分片和第二加法分片、所述无偏估计值,第一参与方和第二参与方联合计算所述回归系数的标准差的第一加法分片和第二加法分片;
根据所述回归系数的标准差的第一加法分片和第二加法分片、回归系数的估计值计算回归特征的统计量;
根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
2.如权利要求1所述的方法,在t检验中,采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。
6.如权利要求1所述的方法,所计算所述回归系数的标准差的第一加法分片和第二加法分片包括:
基于所述逆矩阵的第一加法分片和第二加法分片,第一参与方和第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的第一加法分片和第二加法分片;
根据所述相乘的运算结果的第一加法分片和第二加法分,第一参与方和第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片和第二加法分片。
7.如权利要求1所述的方法,所述方法还包括:
根据所述回归特征的显著特性检验结果对特征进行筛选,确定适用特征。
8.一种基于隐私保护的线性回归特征显著性检验方法,包括:
第一参与方基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
第一参与方获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定;
基于所述第一加法分片和第二参与方的第二加法分片,第一参与方通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,第一参与方通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
9.如权利要求8所述的方法,在t检验中,采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。
13.如权利要求8所述的方法,所述计算所述回归系数的标准差的第一加法分片包括:
基于所述逆矩阵的第一加法分片第二参与方的逆矩阵的第二加法分片,第一参与方通过与第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的分片,得到相乘的运算结果的第一加法分片;
根据所述相乘的运算结果的第一加法分片和第二参与方的相乘的运算结果的第二加法分,第一参与方通过与第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片。
14.如权利要求8所述的方法,所述方法还包括:
根据所述回归特征的显著特性检验结果对特征进行筛选,确定适用特征。
15.一种基于隐私保护的线性回归特征显著性检验装置,包括:
估计值计算模块,用于基于多方安全计算的线性回归训练确定t检验中回归特征的回归系数的估计值和联合矩阵的误差平方和的无偏估计值,其中,设置所述回归系数在t检验中的原假设为零;
联合矩阵处理模块,用于获取联合矩阵的对称矩阵的第一加法分片,所述联合矩阵根据第一参与方持有的私有数据构成的第一原始矩阵、第二参与方持有的私有数据构成的第二原始矩阵确定;
逆矩阵处理模块,用于基于所述第一加法分片和第二参与方的第二加法分片,通过与第二参与方联合计算隐私保护下的所述对称矩阵的逆矩阵的分片,得到所述逆矩阵的第一加法分片;
标准差计算模块,用于基于所述逆矩阵的第一加法分片和第二参与方的逆矩阵的第二加法分片、所述无偏估计值,通过与第二参与方联合计算所述回归系数的标准差的分片,得到所述回归系数的标准差的第一加法分片;
统计量计算模块,用于根据所述回归系数的标准差的第一加法分片和第二参与方的回归系数的标准差的第二加法分片、回归系数的估计值计算回归特征的统计量;
显著性结果模块,用于根据所述统计量所对应的P值确定的t检验结果,确定回归特征的显著性检验结果。
16.如权利要求15所述的装置,其中,在t检验中,采用回归系数与所诉回归系数的标准差的商作为统计量t的数值。
20.如权利要求15所述的装置,所述计算所述回归系数的标准差的第一加法分片包括:
基于所述逆矩阵的第一加法分片第二参与方的逆矩阵的第二加法分片,第一参与方通过与第二参与方联合计算所述无偏估计值与逆矩阵相乘的运算结果的分片,得到相乘的运算结果的第一加法分片;
根据所述相乘的运算结果的第一加法分片和第二参与方的相乘的运算结果的第二加法分,第一参与方通过与第二参与方联合进行隐私保护平方根倒数算法的计算,得到回归系数的标准差的第一加法分片。
21.一种隐私保护的终端设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求8-14中任意一项所述方法的步骤。
22.一种存储介质,用于存储计算机可执行指令,处理器执行所述存储介质上的计算机可执行指令时实现权利要求8-14中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011010612.0A CN111931241B (zh) | 2020-09-23 | 2020-09-23 | 基于隐私保护的线性回归特征显著性检验方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011010612.0A CN111931241B (zh) | 2020-09-23 | 2020-09-23 | 基于隐私保护的线性回归特征显著性检验方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931241A true CN111931241A (zh) | 2020-11-13 |
CN111931241B CN111931241B (zh) | 2021-04-09 |
Family
ID=73335133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011010612.0A Active CN111931241B (zh) | 2020-09-23 | 2020-09-23 | 基于隐私保护的线性回归特征显著性检验方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931241B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463332A (zh) * | 2020-12-01 | 2021-03-09 | 华控清交信息科技(北京)有限公司 | 一种数据处理方法、密文计算系统和用于数据处理的装置 |
CN112597540A (zh) * | 2021-01-28 | 2021-04-02 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的多重共线性检测方法、装置及系统 |
CN113094262A (zh) * | 2021-03-29 | 2021-07-09 | 四川新网银行股份有限公司 | 一种基于数据库分库分表的生产数据进行测试的方法 |
CN113407987A (zh) * | 2021-05-24 | 2021-09-17 | 支付宝(杭州)信息技术有限公司 | 保护隐私的确定业务数据特征有效值的方法及装置 |
CN114662156A (zh) * | 2022-05-25 | 2022-06-24 | 蓝象智联(杭州)科技有限公司 | 一种基于匿名化数据的纵向逻辑回归建模方法 |
CN115081021A (zh) * | 2022-06-27 | 2022-09-20 | 华控清交信息科技(北京)有限公司 | 隐私算法构建方法、装置、电子设备和可读存储介质 |
CN116502255A (zh) * | 2023-06-30 | 2023-07-28 | 杭州金智塔科技有限公司 | 基于秘密分享的特征提取方法以及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889447A (zh) * | 2019-11-26 | 2020-03-17 | 支付宝(杭州)信息技术有限公司 | 基于多方安全计算检验模型特征显著性的方法和装置 |
CN111062487A (zh) * | 2019-11-28 | 2020-04-24 | 支付宝(杭州)信息技术有限公司 | 基于数据隐私保护的机器学习模型特征筛选方法及装置 |
CN111079939A (zh) * | 2019-11-28 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 基于数据隐私保护的机器学习模型特征筛选方法及装置 |
CN111506922A (zh) * | 2020-04-17 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 多方联合对隐私数据进行显著性检验的方法和装置 |
-
2020
- 2020-09-23 CN CN202011010612.0A patent/CN111931241B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889447A (zh) * | 2019-11-26 | 2020-03-17 | 支付宝(杭州)信息技术有限公司 | 基于多方安全计算检验模型特征显著性的方法和装置 |
CN111062487A (zh) * | 2019-11-28 | 2020-04-24 | 支付宝(杭州)信息技术有限公司 | 基于数据隐私保护的机器学习模型特征筛选方法及装置 |
CN111079939A (zh) * | 2019-11-28 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 基于数据隐私保护的机器学习模型特征筛选方法及装置 |
CN111506922A (zh) * | 2020-04-17 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 多方联合对隐私数据进行显著性检验的方法和装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463332A (zh) * | 2020-12-01 | 2021-03-09 | 华控清交信息科技(北京)有限公司 | 一种数据处理方法、密文计算系统和用于数据处理的装置 |
CN112597540A (zh) * | 2021-01-28 | 2021-04-02 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的多重共线性检测方法、装置及系统 |
CN112597540B (zh) * | 2021-01-28 | 2021-10-01 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的多重共线性检测方法、装置及系统 |
CN113094262A (zh) * | 2021-03-29 | 2021-07-09 | 四川新网银行股份有限公司 | 一种基于数据库分库分表的生产数据进行测试的方法 |
CN113094262B (zh) * | 2021-03-29 | 2022-10-18 | 四川新网银行股份有限公司 | 一种基于数据库分库分表的生产数据进行测试的方法 |
CN113407987A (zh) * | 2021-05-24 | 2021-09-17 | 支付宝(杭州)信息技术有限公司 | 保护隐私的确定业务数据特征有效值的方法及装置 |
CN113407987B (zh) * | 2021-05-24 | 2023-10-20 | 支付宝(杭州)信息技术有限公司 | 保护隐私的确定业务数据特征有效值的方法及装置 |
CN114662156A (zh) * | 2022-05-25 | 2022-06-24 | 蓝象智联(杭州)科技有限公司 | 一种基于匿名化数据的纵向逻辑回归建模方法 |
CN115081021A (zh) * | 2022-06-27 | 2022-09-20 | 华控清交信息科技(北京)有限公司 | 隐私算法构建方法、装置、电子设备和可读存储介质 |
CN116502255A (zh) * | 2023-06-30 | 2023-07-28 | 杭州金智塔科技有限公司 | 基于秘密分享的特征提取方法以及装置 |
CN116502255B (zh) * | 2023-06-30 | 2023-09-19 | 杭州金智塔科技有限公司 | 基于秘密分享的特征提取方法以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111931241B (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931241B (zh) | 基于隐私保护的线性回归特征显著性检验方法、装置 | |
Al Badawi et al. | Privft: Private and fast text classification with homomorphic encryption | |
CN111783130B (zh) | 隐私保护的数据处理方法、装置及服务器 | |
Lee et al. | The cusum test for parameter change in time series models | |
Zheng et al. | Gan-based key secret-sharing scheme in blockchain | |
US11164484B2 (en) | Secure computation system, secure computation device, secure computation method, and program | |
CN111428887B (zh) | 一种基于多个计算节点的模型训练控制方法、装置及系统 | |
WO2020156004A1 (zh) | 模型训练方法、装置及系统 | |
EP3573039B1 (en) | Secure computing system, secure computing device, secure computing method, and program | |
Tjell et al. | Privacy in distributed computations based on real number secret sharing | |
Liu et al. | A new conjugate gradient projection method for convex constrained nonlinear equations | |
CN116167868A (zh) | 基于隐私计算的风险识别方法、装置、设备以及存储介质 | |
Al‐Momani et al. | Penalty and related estimation strategies in the spatial error model | |
Wang et al. | Secure collaboration in engineering systems design | |
CN117609621A (zh) | 用于在多个节点中进行资源推荐的方法 | |
CN116094686B (zh) | 用于量子卷积计算的同态加密方法、系统、设备及终端 | |
CN117034307A (zh) | 数据加密方法、装置、计算机设备和存储介质 | |
Su et al. | Parameter estimation for fractional diffusion process with discrete observations | |
Mesfioui et al. | On a new goodness‐of‐fit process for families of copulas | |
Cui et al. | Estimation of change‐point for a class of count time series models | |
Sheng et al. | Bit‐level image encryption algorithm based on fully‐connected‐like network and random modification of edge pixels | |
Davis et al. | Indirect inference for time series using the empirical characteristic function and control variates | |
CN105917400A (zh) | 元素复制装置、元素复制方法、以及程序 | |
Shortell et al. | Secure signal processing using fully homomorphic encryption | |
Wiegand et al. | A series representation for multidimensional Rayleigh distributions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |