CN111523681A - 全局特征重要性表征方法、装置、电子设备和存储介质 - Google Patents

全局特征重要性表征方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111523681A
CN111523681A CN202010629924.3A CN202010629924A CN111523681A CN 111523681 A CN111523681 A CN 111523681A CN 202010629924 A CN202010629924 A CN 202010629924A CN 111523681 A CN111523681 A CN 111523681A
Authority
CN
China
Prior art keywords
feature
passive
party
active
splitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010629924.3A
Other languages
English (en)
Inventor
方文静
王力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010629924.3A priority Critical patent/CN111523681A/zh
Publication of CN111523681A publication Critical patent/CN111523681A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提出了一种全局特征重要性表征方法、装置、电子设备和存储介质,其中,上述方法包括:构建隐私树模型,获取主动方的第一训练数据及目标特征,分别在主动方和被动方进行训练,在训练中记录下各被动方的各项指标值及对应的特征标签;根据所述指标值及所述被动方特征标签进行评估,得到所述隐私树模型的特征重要性;通过本说明书可以获得隐私树模型的全局解释性,由此可以提高对隐私树模型与数据特征之间的关联关系的直观理解。

Description

全局特征重要性表征方法、装置、电子设备和存储介质
技术领域
本说明书涉及人工智能技术领域,尤其涉及一种全局特征重要性表征方法、装置、电子设备和存储介质。
背景技术
人工智能(Artificial Intelligence;以下简称:AI),是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。其中,AI的主要研究目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作,通常人工智能都通过对模型进行训练获得,并可以通过数据特征对模型进行解释。
发明内容
本说明书实施例提供了一种全局特征重要性表征方法、装置、电子设备和存储介质,通过获取被动方的匿名特征以及对应的重要性指标数值,根据该重要性指标数值对各参与方的特征进行排序,由此可以获得隐私树模型的全局解释性,并可以提高对隐私树模型与数据特征之间的关联关系的直观理解。
第一方面,本说明书实施例提供一种全局特征重要性表征方法,包括:
构建隐私树模型,其中,所述隐私树模型与多个分裂对应,所述分裂方包括一个主动方及至少一个被动方;
获取第一训练数据,所述主动方根据所述第一训练数据计算增益,得到主动方增益,并接收各被动方的增益,根据所述主动方增益及所述被动方增益对所述隐私树模型进行训练;其中,所述主动方增益与主动方特征对应,所述被动方增益与被动方特征对应;
在所述训练过程中,记录每次分裂对应的被动方、被动方特征标签及一个或多个预置指标项的数值,并在训练完成后根据所述预置指标项的数值对所述被动方特征标签及所述主动方特征进行汇总,得到所述隐私树模型的特征重要性,其中,所述被动方特征标签用于对所述被动方特征进行匿名标识。
其中一种可能的实现方式中,所述主动方根据所述第一训练数据计算增益,得到主动方增益包括:
根据所述第一训练数据确定主动方的特征集合,依次根据所述主动方特征集合中的每个特征计算增益,得到主动方中每个所述特征对应的增益。
其中一种可能的实现方式中,所述根据所述主动方增益及被动方增益对所述隐私树模型进行训练包括:
S1,根据所述主动方增益及所述被动方增益对所述联邦学习模型的节点进行分裂,得到分裂树,其中,所述分裂树包括多个节点,每个所述节点与分裂的特征及参与方对应;
S2,当获取到当前的分裂树后,对当前分裂树的一阶导数及二阶导数进行更新,根据更新后的一阶导数及二阶导数计算主动方增益及被动方增益,并根据新的主动方增益及新的被动方增益进行再次分裂,得到下一棵分裂树,并重复步骤S2,得到多棵分裂树。
其中一种可能的实现方式中,所述在所述训练过程中,记录每次分裂对应的被动方、被动方特征标签及一个或多个预置指标项的数值包括:
在所述训练过程中,获取每次分裂时对应的被动方及与所述被动方对应的特征标签,并将所述被动方及所述被动方特征标签进行存储;
计算每次分裂时与所述被动方特征标签对应的预置指标项的数值,并将所述预置指标项数值进行存储。
其中一种可能的实现方式中,所述在训练完成后根据所述预置指标项的数值对所述被动方特征标签及所述主动方特征进行汇总,得到所述隐私树模型的特征重要性包括:
在训练完成后统计所述主动方每个特征对应的预置指标项的数值,以及所述被动方每个特征标签对应的预置指标项的数值;
根据所述预置指标项数值对所述主动方所有特征及所述被动方所有特征标签进行排序,得到特征重要性。
其中一种可能的实现方式中,在所述根据所述预置指标项数值对所述主动方所有特征及所述被动方所有特征标签进行排序,得到特征重要性之后,还包括:
将所述被动方所有特征标签对应的排序结果发送给所有被动方。
本实施例中,通过获取被动方的匿名特征以及对应的重要性指标数值,根据该重要性指标数值对各参与方的特征进行排序,由此可以获得隐私树模型的全局解释性,并可以提高对隐私树模型与数据特征之间的关联关系的直观理解。
第二方面,本说明书实施例提供一种全局特征重要性表征装置,包括:
构建模块,用于构建隐私树模型,其中,所述隐私树模型与多个分裂方对应,所述分裂方包括一个主动方及至少一个被动方;
训练模块,用于获取第一训练数据,所述主动方根据所述第一训练数据计算增益,得到主动方增益,并接收各被动方的增益,根据所述主动方增益及所述被动方增益对所述隐私树模型进行训练;其中,所述主动方增益与主动方特征对应,所述被动方增益与被动方特征对应;
表征模块,用于在所述训练过程中,记录每次分裂对应的被动方、被动方特征标签及一个或多个预置指标项的数值,并在训练完成后根据所述预置指标项的数值对所述被动方特征标签及所述主动方特征进行汇总,得到所述隐私树模型的特征重要性,其中,所述被动方特征标签用于对所述被动方特征进行匿名标识。
其中一种可能的实现方式中,所述训练模块还用于根据所述第一训练数据确定主动方的特征集合,依次根据所述主动方特征集合中的每个特征计算增益,得到主动方中每个所述特征对应的增益。
其中一种可能的实现方式中,所述训练模块包括:
分裂单元,用于根据所述主动方增益及所述被动方增益对所述隐私树模型的节点进行分裂,得到分裂树,其中,所述分裂树包括多个节点,每个所述节点与分裂的特征及分裂方对应;
更新单元,用于当获取到当前的分裂树后,对当前分裂树的一阶导数及二阶导数进行更新,根据更新后的一阶导数及二阶导数计算主动方增益及被动方增益,并根据新的主动方增益及新的被动方增益进行再次分裂,得到下一棵分裂树,并重复所述更新单元的执行步骤,得到多棵分裂树。
其中一种可能的实现方式中,所述表征模块包括:
获取单元,用于在所述训练过程中,获取每次分裂时对应的被动方及与所述被动方对应的特征标签,并将所述被动方及所述被动方特征标签进行存储;
计算单元,用于计算每次分裂时与所述被动方特征标签对应的预置指标项的数值,并将所述预置指标项数值进行存储。
其中一种可能的实现方式中,所述表征模块包括:
统计单元,用于在训练完成后统计所述主动方每个特征对应的预置指标项的数值,以及所述被动方每个特征标签对应的预置指标项的数值;
表征单元,用于根据所述预置指标项数值对所述主动方所有特征及所述被动方所有特征标签进行排序,得到特征重要性。
其中一种可能的实现方式中,所述装置还包括:
发送模块,用于将所述被动方所有特征标签对应的排序结果发送给所有被动方。
第三方面,本说明书实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面提供的方法。
第四方面,本说明书实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,当所述计算机指令在计算机上运行时,所述计算机指令使所述计算机执行第一方面提供的方法。
应当理解的是,本说明书的第二~第四方面与本说明书的第一方面的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书全局特征重要性表征方法一个实施例的流程图;
图2为本说明书实施例提供的隐私树模型系统架构示意图;
图3为本说明书实施例提供的隐私树模型训练流程示意图;
图4为本说明书实施例提供的全局特征重要性排名示意图;
图5为本说明书全局特征重要性表征装置一个实施例的结构示意图;
图6为本说明书电子设备一个实施例的结构示意图。
具体实施方式
为了更好的理解本说明书的技术方案,下面结合附图对本说明书实施例进行详细描述。
应当明确,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本说明书保护的范围。
在本说明书实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
目前,对于人工智能模型的训练都是针对单方的数据,而单方的数据经常面临数据量不够或者质量不高的情况,因此需要联合多方的数据进行训练,然而在获取其它参与方数据的时候,会面临数据隐私的问题,即对方不愿意提供数据;为了维护多方数据的私密性,隐私树(secureboost)模型被提出用于解决上述数据隐私问题,然而由于隐私树模型中各分裂方不进行原始数据交换,因此无法在模型训练后获得各数据特征对模型的贡献,进而导致无法有效对模型进行评估。
在对数据特征进行评估的过程中,可以分为局部性解释及全局性解释,该局部性解释通常适用于一条或多条数据,即对数据进行特征评估;全局性解释适用于整个模型,即对整个模型进行特征评估,找出贡献度较大的特征。
图1为本说明书全局特征重要性表征方法一个实施例的流程图,如图1所示,上述全局特征重要性表征方法可以包括:
步骤101,构建隐私树模型。
具体地,该隐私树模型可以是主动方和被动方共享的训练模型,即隐私树模型可以包括多个分裂方;例如,该隐私树模型可以对应一个主动方和至少一个被动方,如图2所示为隐私树模型的系统架构,企业A和企业B为分裂方;首先,企业A和企业B要进行训练样本对齐,为了保护各方数据的隐私,该训练样本对齐的方式可以采用哈希加密的方式,用以确定企业A和企业B之间的数据交集,然后在该数据交集基础上各自进行训练,中间不进行原始数据交互,只进行中间结果的交互以及加密数据的交互;其中,该中间结果可以包括梯度及损失,通过梯度及损失的计算对各自的模型进行训练,逐渐将该模型的损失进行收敛,直到训练达到目标值,即意味着该隐私树模型训练结束。
在具体实现时,由于各分裂方的数据各有不同,因此可将具有标签数据的分裂方作为主动方,其余分裂方作为被动方;其中,被动方的数目可以是一个,也可以是多个。
步骤102,在隐私树模型中通过主动方和被动方对训练数据的分裂,得到分裂树,并在分裂过程中记录被动方、被动方特征标签及一个或多个预置指标项的数值。
具体地,首先可以在主动方和各被动方之间进行训练数据对齐,用以获得相同的训练数据,即第一训练数据,由此可以保证训练模型的一致性。
需要说明的是,在隐私树模型中,该第一训练数据获取的方式可以是哈希加密的方式,用以将主动方和其余被动方的数据进行交集,以得到共同的交集,即第一训练数据,在求取共同交集的过程中,都是通过加密的方式,且不进行原始数据交互,因此可以对各参与方的数据进行隐私保护。
应理解,各方的交集数据虽然都是第一训练数据,然而该第一训练数据在不同的参与方对应的特征可以不同,例如,主动方的第一训练数据可以包括特征A,被动方的第一训练数据可以包括特征B。
接着,当主动方及被动方确定该第一训练数据之后,可将该第一训练数据输入隐私树模型的根节点开始进行训练,训练的第一个步骤可以是对该根节点进行分裂,而根节点的分裂可以根据主动方及被动方的分裂方案决定;在具体实现时,每个参与方在分裂前可以枚举自身的分裂方案,该分裂方案可以是根据自身的特征对该根节点进行分裂,其中,主动方包含标签数据,因此可以计算出一阶导数(gi)及二阶导数(hi),而一阶导数及二阶导数与损失函数,即与增益相关;因此主动方可以将加密的一阶导数及二阶导数发送给所有的被动方,而每个被动方在收到该一阶导数及二阶导数后,可以结合自身的样本数据确定本地最优分裂,即最佳的分裂方案,其中,该最佳的分裂方案可以和本次分裂的特征以及在分裂后得到的增益对应,该增益可以是聚合的加密梯度统计信息,并可以将该聚合的加密梯度统计信息及被动方特征标签发送给主动方,以让主动方进行预期增益的全局评估;由此可以让主动方确定最高预期增益对应的分裂方,即确定全局最优的分裂方案,并由主动方指示与该全局最优分裂方案对应的分裂方进行分裂;其中,分裂的方式可以是根据该最高预期增益对应的特征进行,由此可以得到第一层的两个分裂节点;该第一层的每个分裂节点对应一份样本数据,即将该第一训练数据进行分裂,得到两份样本数据,该两份样本数据的数据量总和与第一训练数据的数据量保持一致,示例性的,假设第一训练数据为A,经过分裂可以得到两份样本数据,即样本数据B和样本数据C,其中A=B+C。
当根节点进行分裂之后,可以进行下一个节点的分裂;以第一层的分裂节点为例,当前的第一层的分裂节点有两个,当对其中任意一个分裂节点进行分裂时,可以由各分裂方进行预期增益的计算,并可以由主动方对所有预期增益进行汇总,根据本次最高预期收益可以产生该分裂节点对应的分裂方,即下一个分裂节点;当完成该分裂节点的分裂时,可以继续完成另一个分裂节点的分裂,由此可以得到第二层的四个分裂节点。
通过对上述节点的不断分裂,可以得到多个分裂节点,该多个分裂节点可以构成一棵树;其中,当分裂达到预定条件或者树的最大深度时,可以结束分裂,并可以计算获得各分裂节点的分值,该分值可以与一阶导数和二阶导数相关;而一棵树生成之后,可以生成下一棵树,其中,在下一棵树生成之前,还可以包括对上一棵树的一阶导数和二阶导数进行更新,由于该一阶导数和二阶导数与增益相关,因此在生成下一棵树之前,增益已经进行更新,主动方可以根据新的增益进行再次分裂,由此可以获得新的分裂树;进一步地,在获得第二棵分裂树之后,可以在第二棵分裂树的基础上对一阶导数和二阶导数进行更新,然后再次进行分裂,由此可以得到第三棵数,以此类推,通过对每棵树的一阶导数和二阶导数更新后再进行重新分裂,不断重复上述步骤,可以得到不同的多棵树。
现结合图3进行说明,如图3所示,隐私树模型包括主动方A、被动方B和被动方C,其中,主动方A、被动方B和被动方C共同拥有第一训练数据,该第一训练数据包括ID号分别为x1、x2、x3、x4及x5的用户数据,在主动方A该第一训练数据包括特征号(Feature ID)=1的特征,即“年龄”特征,分裂阈值为20;在被动方B该第一训练数据包括特征号(Feature ID)=1的特征,即“身高”特征,分裂阈值为160;在被动方C该第一训练数据包括特征号(FeatureID)=1的特征,即“体重”特征,分裂阈值为50;首先可以生成第一棵树,经过主动方A对被动方B、被动方C以及自身的加密梯度统计信息(分裂方案)的评估,可以选定在主动方A根据特征号1(年龄)进行分裂为最优分裂,即增益最大,因此该根节点的分裂可以通过“年龄”特征进行分裂,由此可以将根节点分成节点1和节点2;其中,节点1可以对应用户x1及x5,节点2可以对应用户x2、x3及x4;接着主动方A在节点1上对被动方B、被动方C以及自身的加密梯度统计信息再次进行评估,并可以选定在被动方B根据特征号1(身高)进行分裂为最优分裂,因此可以将节点1分配给被动方B进行分裂,并可以告知被动方的最优分裂方案的信息,需要说明的是,特征号的数值可以是各分裂方的本地特征编号;其中,最优分裂方案的信息可以包括分裂的特征号(Feature ID)及分裂阈值号,其中,每个分裂阈值号与一个分裂阈值对应;当被动方B收到该特征号及分裂阈值号后,即可以根据该特征号及分裂阈值号进行分裂,由此可以获得下一层分裂节点w1和w2;其中,节点w1包含样本数据x1,节点w2包含样本数据x5;同样地,也可以根据上述方法对节点2进行分裂,即在主动方进行评估后,选定被动C根据特征号1(体重)进行分裂为最优分裂,由此可以得到下一层分裂节点w3和w4 ;其中,节点w3包含样本数据x2和x3,节点w4包含样本数据x4,由此完成了第一棵树的构建;接下来继续进行下一棵树的构建,该下一棵树的构建方式同第一棵树,在此不再赘述。
步骤103,在训练完成后根据所述预置指标项的数值对所述被动方特征标签及所述主动方目标特征进行评估,得到所述隐私树模型的特征重要性。
具体地,当所有树构建之后,由于主动方在分裂时已经记录下每个分裂节点对应的特征号及与该特征对应的预置指标项的数值,因此可以根据该特征号及与该特征对应的预置指标项的数值进行统计,其中该预置的指标项可以包括平均样本数及增益值,该平均样本数可以用于表征该特征在该分裂节点分裂时的训练数据量,该增益值用于表征通过该特征进行分裂所获得的信息增益。
可选地,为了保护数据的隐私,主动方与被动方之间不进行训练数据的交换,因此被动方不能直接将该特征发送给主动方;可选地,可以将该特征用特征标签替代,如图3中的特征号(Feature ID),当主动方收到该特征号,不知道该特征号的具体含义,由此可以实现对特征进行匿名的目的,起到对数据隐私进行保护的目的。
其中,该统计可以包括根据样本数对所有树中的每个特征进行统计,由此可以获得每个特征对应的样本总数,然后根据该样本总数及与该特征对应的节点总数可以得到对应的平均样本数,例如,根据样本总数与节点总数的商可以得到平均样本数;所述统计还可以包括根据增益值对所有树中的每个特征进行统计,由此获得每个特征对应的增益累计值;所述统计还可以包括对所有树中每个特征的次数进行统计,由此获得每个特征对应的特征频率。
进一步地,当得到每个特征对应的平均样本数后,可以根据该平均样本数对特征进行排序,该特征可以包括主动方的特征及被动方的特征标签,其中,特征的平均样本数越高,则表征重要程度越高。
进一步地,当得到每个特征对应的增益累计值后,可以根据该增益累计值对特征进行排序,该特征可以包括主动方的特征及被动方的特征标签,其中,特征的增益累计值越高,则表征重要程度越高。如图4所示为最终的特征重要性表征示意图,分别以平均样本数及增益值为维度进行表征。
进一步地,当得到每个特征对应的特征频率后,可以根据该特征频率对特征进行排序,该特征可以包括主动方的特征及被动方的特征标签,其中,特征的特征频率越高,则表征重要程度越高。
应理解,还可以通过其它指标对特征重要性进行表征,本说明书实施例对此不作限定。
可选地,主动方还可以统计不同被动方的平均样本数、增益累计值及被动方频率,由此衡量被动方的贡献度;其中,每个被动方的平均样本数可以通过统计所有树中的与该被动方对应的样本总数及与该被动方对应的节点总数获得,例如,通过样本总数与节点总数的商可以得到平均样本数;每个被动方的增益累计值可以通过统计所有树中的与该被动方对应的增益值获得;每个被动方的频率可以通过统计所有树中的被动方的次数获得;由此可以分别根据上述三个指标数值对被动方进行排序,进而获得各被动方对模型的贡献度。
可选地,在主动方获得各特征的排序结果后,可将各被动方对应的排序结果发送给各被动方,由于数据的隐私保护,主动方可以将主动方特征进行保留,即只将与特征标签对应的排序结果进行发送,主动方也可以将主动方特征用特征号替代后发送,由此可以让各被动方对该隐私树模型的特征重要性进行直观及全局的了解。
本发明实施例中,通过在训练过程中获取被动方的匿名特征以及对应的重要性指标数值,根据该重要性指标数值对各参与方的特征进行排序,由此可以获得模型的全局解释性,并可以提高对隐私树模型与数据特征之间的关联关系的直观理解。
图5为本说明书全局特征重要性表征装置50一个实施例的结构示意图,如图5所示,上述全局特征重要性表征装置50可以包括:构建模块51、训练模块52和表征模块53;
构建模块51,用于构建隐私树模型,其中,所述隐私树模型与多个分裂方对应,所述分裂方包括一个主动方及至少一个被动方;
训练模块52,用于获取第一训练数据,所述主动方根据所述第一训练数据计算增益,得到主动方增益,并接收各被动方的增益,根据所述主动方增益及所述被动方增益对所述隐私树模型进行训练;其中,所述主动方增益与主动方特征对应,所述被动方增益与被动方特征对应;
表征模块53,用于在所述训练过程中,记录每次分裂对应的被动方、被动方特征标签及一个或多个预置指标项的数值,并在训练完成后根据所述预置指标项的数值对所述被动方特征标签及所述主动方特征进行汇总,得到所述隐私树模型的特征重要性,其中,所述被动方特征标签用于对所述被动方特征进行匿名标识。
其中一种可能的实现方式中,上述训练模块52还可以用于根据所述第一训练数据确定主动方的特征集合,依次根据所述主动方特征集合中的每个特征计算增益,得到主动方中每个所述特征对应的增益。
其中一种可能的实现方式中,上述训练模块52可以包括:分裂单元521及更新单元522;
分裂单元521,用于根据所述主动方增益及所述被动方增益对所述隐私树模型的节点进行分裂,得到分裂树,其中,所述分裂树包括多个节点,每个所述节点与分裂的特征及分裂方对应;
更新单元522,用于当获取到当前的分裂树后,对当前分裂树的一阶导数及二阶导数进行更新,根据更新后的一阶导数及二阶导数计算主动方增益及被动方增益,并根据新的主动方增益及新的被动方增益进行再次分裂,得到下一棵分裂树,并重复所述更新单元的执行步骤,得到多棵分裂树。
其中一种可能的实现方式中,上述表征模块53可以包括:获取单元531及计算单元532;
获取单元531,用于在所述训练过程中,获取每次分裂时对应的被动方及与所述被动方对应的特征标签,并将所述被动方及所述被动方特征标签进行存储;
计算单元532,用于计算每次分裂时与所述被动方特征标签对应的预置指标项的数值,并将所述预置指标项数值进行存储。
其中一种可能的实现方式中,上述表征模块53还可以包括:统计单元533及表征单元534;
统计单元533,用于在训练完成后统计所述主动方每个特征对应的预置指标项的数值,以及所述被动方每个特征标签对应的预置指标项的数值;
表征单元534,用于根据所述预置指标项数值对所述主动方所有特征及所述被动方所有特征标签进行排序,得到特征重要性。
其中一种可能的实现方式中,上述全局特征重要性表征装置50还可以包括:发送模块54;
发送模块54,用于将所述被动方所有特征标签对应的排序结果发送给所有被动方。
图5所示实施例提供的全局特征重要性表征装置可用于执行本说明书图1~图4所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
图6为本说明书电子设备600一个实施例的结构示意图,如图6所示,上述电子设备可以包括至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,上述处理器调用上述程序指令能够执行本说明书图1~图4所示实施例提供的全局特征重要性表征方法。
其中,上述电子设备可以为能够进行全局特征重要性表征的设备,例如:计算机,本说明书实施例对上述电子设备的具体形式不作限定。可以理解的是,这里的电子设备即为方法实施例中提到的机器。
图6示出了适于用来实现本说明书实施方式的示例性电子设备的框图。图6显示的电子设备600仅仅是一个示例,不应对本说明书实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:一个或者多个处理器610,存储器630,连接不同系统组件(包括存储器630和处理单元610)的通信总线640。
通信总线640表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器630可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器630可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本说明书各实施例的功能。
具有一组(至少一个)程序模块的程序/实用工具,可以存储在存储器630中,这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本说明书所描述的实施例中的功能和/或方法。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过通信接口620进行。并且,电子设备还可以通过网络适配器(图6中未示出)与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide AreaNetwork;以下简称:WAN)和/或公共网络,例如因特网)通信,上述网络适配器可以通过通信总线640与电子设备的其它模块通信。应当明白,尽管图6中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Drives;以下简称:RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器610通过运行存储在存储器630中的程序,从而执行各种功能应用以及数据处理,例如实现本说明书图1~图4所示实施例提供的全局特征重要性表征方法。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本说明书实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本说明书图1~图4所示实施例提供的全局特征重要性表征方法。
上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(Erasable ProgrammableRead Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本说明书的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本说明书的实施例所属技术领域的技术人员所理解。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,本说明书实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer;以下简称:PC)、个人数字助理(Personal Digital Assistant;以下简称:PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
在本说明书所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本说明书各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (14)

1.一种全局特征重要性表征方法,包括:
构建隐私树模型,其中,所述隐私树模型与多个分裂方对应,所述分裂方包括一个主动方及至少一个被动方;
获取第一训练数据,所述主动方根据所述第一训练数据计算增益,得到主动方增益,并接收各被动方的增益,根据所述主动方增益及所述被动方增益对所述隐私树模型进行训练;其中,所述主动方增益与主动方特征对应,所述被动方增益与被动方特征对应;
在所述训练过程中,记录每次分裂对应的被动方、被动方特征标签及一个或多个预置指标项的数值,并在训练完成后根据所述预置指标项的数值对所述被动方特征标签及所述主动方特征进行汇总,得到所述隐私树模型的特征重要性,其中,所述被动方特征标签用于对所述被动方特征进行匿名标识。
2.根据权利要求1所述的方法,所述主动方根据所述第一训练数据计算增益,得到主动方增益包括:
根据所述第一训练数据确定主动方的特征集合,依次根据所述主动方特征集合中的每个特征计算增益,得到主动方中每个所述特征对应的增益。
3.根据权利要求1所述的方法,所述根据所述主动方增益及被动方增益对所述隐私树模型进行训练包括:
S1,根据所述主动方增益及所述被动方增益对所述隐私树模型的节点进行分裂,得到分裂树,其中,所述分裂树包括多个节点,每个所述节点与分裂的特征及分裂方对应;
S2,当获取到当前的分裂树后,对当前分裂树的一阶导数及二阶导数进行更新,根据更新后的一阶导数及二阶导数计算主动方增益及被动方增益,并根据新的主动方增益及新的被动方增益进行再次分裂,得到下一棵分裂树,并重复步骤S2,得到多棵分裂树。
4.根据权利要求1所述的方法,所述在所述训练过程中,记录每次分裂对应的被动方、被动方特征标签及一个或多个预置指标项的数值包括:
在所述训练过程中,获取每次分裂时对应的被动方及与所述被动方对应的特征标签,并将所述被动方及所述被动方特征标签进行存储;
计算每次分裂时与所述被动方特征标签对应的预置指标项的数值,并将所述预置指标项数值进行存储。
5.根据权利要求1所述的方法,所述在训练完成后根据所述预置指标项的数值对所述被动方特征标签及所述主动方特征进行汇总,得到所述隐私树模型的特征重要性包括:
在训练完成后统计所述主动方每个特征对应的预置指标项的数值,以及所述被动方每个特征标签对应的预置指标项的数值;
根据所述预置指标项数值对所述主动方所有特征及所述被动方所有特征标签进行排序,得到特征重要性。
6.根据权利要求5所述的方法,在所述根据所述预置指标项数值对所述主动方所有特征及所述被动方所有特征标签进行排序,得到特征重要性之后,还包括:
将所述被动方所有特征标签对应的排序结果发送给所有被动方。
7.一种全局特征重要性的表征装置,包括:
构建模块,用于构建隐私树模型,其中,所述隐私树模型与多个分裂方对应,所述分裂方包括一个主动方及至少一个被动方;
训练模块,用于获取第一训练数据,所述主动方根据所述第一训练数据计算增益,得到主动方增益,并接收各被动方的增益,根据所述主动方增益及所述被动方增益对所述隐私树模型进行训练;其中,所述主动方增益与主动方特征对应,所述被动方增益与被动方特征对应;
表征模块,用于在所述训练过程中,记录每次分裂对应的被动方、被动方特征标签及一个或多个预置指标项的数值,并在训练完成后根据所述预置指标项的数值对所述被动方特征标签及所述主动方特征进行汇总,得到所述隐私树模型的特征重要性,其中,所述被动方特征标签用于对所述被动方特征进行匿名标识。
8.根据权利要求7所述的装置,所述训练模块还用于根据所述第一训练数据确定主动方的特征集合,依次根据所述主动方特征集合中的每个特征计算增益,得到主动方中每个所述特征对应的增益。
9.根据权利要求7所述的装置,所述训练模块包括:
分裂单元,用于根据所述主动方增益及所述被动方增益对所述隐私树模型的节点进行分裂,得到分裂树,其中,所述分裂树包括多个节点,每个所述节点与分裂的特征及分裂方对应;
更新单元,用于当获取到当前的分裂树后,对当前分裂树的一阶导数及二阶导数进行更新,根据更新后的一阶导数及二阶导数计算主动方增益及被动方增益,并根据新的主动方增益及新的被动方增益进行再次分裂,得到下一棵分裂树,并重复所述更新单元的执行步骤,得到多棵分裂树。
10.根据权利要求7所述的装置,所述表征模块包括:
获取单元,用于在所述训练过程中,获取每次分裂时对应的被动方及与所述被动方对应的特征标签,并将所述被动方及所述被动方特征标签进行存储;
计算单元,用于计算每次分裂时与所述被动方特征标签对应的预置指标项的数值,并将所述预置指标项数值进行存储。
11.根据权利要求7所述的装置,其特征在于,所述表征模块包括:
统计单元,用于在训练完成后统计所述主动方每个特征对应的预置指标项的数值,以及所述被动方每个特征标签对应的预置指标项的数值;
表征单元,用于根据所述预置指标项数值对所述主动方所有特征及所述被动方所有特征标签进行排序,得到特征重要性。
12.根据权利要求11所述的装置,所述装置还包括:
发送模块,用于将所述被动方所有特征标签对应的排序结果发送给所有被动方。
13.一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
14.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,当所述计算机指令在计算机上运行时,所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。
CN202010629924.3A 2020-07-03 2020-07-03 全局特征重要性表征方法、装置、电子设备和存储介质 Pending CN111523681A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010629924.3A CN111523681A (zh) 2020-07-03 2020-07-03 全局特征重要性表征方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010629924.3A CN111523681A (zh) 2020-07-03 2020-07-03 全局特征重要性表征方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN111523681A true CN111523681A (zh) 2020-08-11

Family

ID=71910165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010629924.3A Pending CN111523681A (zh) 2020-07-03 2020-07-03 全局特征重要性表征方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111523681A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592097A (zh) * 2021-07-23 2021-11-02 京东科技控股股份有限公司 联邦模型的训练方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592097A (zh) * 2021-07-23 2021-11-02 京东科技控股股份有限公司 联邦模型的训练方法、装置和电子设备
CN113592097B (zh) * 2021-07-23 2024-02-06 京东科技控股股份有限公司 联邦模型的训练方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN106936781A (zh) 一种用户操作行为的判定方法及装置
CN109214674B (zh) 客服系统管理方法、客服系统及电子设备
CN111400600A (zh) 一种消息推送方法、装置、设备和存储介质
CN112990583B (zh) 一种数据预测模型的入模特征确定方法及设备
CN112149706A (zh) 模型训练方法、装置、设备和介质
CN111126422B (zh) 行业模型的建立及行业的确定方法、装置、设备及介质
CN111523681A (zh) 全局特征重要性表征方法、装置、电子设备和存储介质
CN112887371B (zh) 边缘计算方法、装置、计算机设备及存储介质
CN117472431A (zh) 代码注释生成方法、装置、计算机设备、存储介质和产品
CN111597299A (zh) 知识点监测方法、装置、计算机设备和存储介质
CN111049988A (zh) 移动设备的亲密度预测方法、系统、设备及存储介质
CN114172856B (zh) 消息自动回复方法、装置、设备及存储介质
CN111598390B (zh) 服务器高可用性评估方法、装置、设备和可读存储介质
CN114897067A (zh) 基于联邦学习的决策模型训练方法、装置和联邦学习系统
CN114155012A (zh) 欺诈群体识别方法、装置、服务器及存储介质
CN113850454A (zh) 基于工业神经网络的零件制造方法、装置、设备及介质
CN112950833A (zh) 一种门禁设备的授权方法、装置、设备及存储介质
CN114065640B (zh) 联邦树模型的数据处理方法、装置、设备及存储介质
CN117435963B (zh) 数字资产欺诈群体确定方法、装置、电子设备和存储介质
KR102471731B1 (ko) 사용자를 위한 네트워크 보안 관리 방법
CN114710354B (zh) 异常事件检测方法及装置、存储介质及电子设备
CN111339093B (zh) 用户行为数据的获取方法、装置、设备及存储介质
CN115357995B (zh) 一种城际铁路云端模型数据融合计算的方法及装置
CN112672266B (zh) 异常音箱的确定方法及装置
CN115600817A (zh) 一种对象间交互信息分析方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40036325

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811