CN112990484B - 基于非对称联邦学习的模型联合训练方法、装置及设备 - Google Patents

基于非对称联邦学习的模型联合训练方法、装置及设备 Download PDF

Info

Publication number
CN112990484B
CN112990484B CN202110427675.4A CN202110427675A CN112990484B CN 112990484 B CN112990484 B CN 112990484B CN 202110427675 A CN202110427675 A CN 202110427675A CN 112990484 B CN112990484 B CN 112990484B
Authority
CN
China
Prior art keywords
sample data
sample
classification
indication
classification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110427675.4A
Other languages
English (en)
Other versions
CN112990484A (zh
Inventor
陈程
刘站奇
叶俊棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110427675.4A priority Critical patent/CN112990484B/zh
Publication of CN112990484A publication Critical patent/CN112990484A/zh
Application granted granted Critical
Publication of CN112990484B publication Critical patent/CN112990484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于非对称联邦学习的模型联合训练方法、装置及设备,属于计算机技术领域。该方法包括:获取本地存储的多个第一样本数据及对应的第一样本标识和指示标识,对所述多个第一样本数据进行分类,并确定第一分类信息,向第一设备发送获取到的多个第一样本标识和对应的加密指示标识,接收所述第一设备发送的第二分类信息,基于所述第一分类信息和所述第二分类信息训练所述分类模型。本申请实施例提供了一种联合训练分类模型的方式,在训练分类模型的过程中,其他提供方分享给当前提供方的分类信息中仅包括了样本数据对应的加密指示标识,使得当前提供方无法基于分类信息来推测出样本数据,避免了信息泄露,从而提高了安全性。

Description

基于非对称联邦学习的模型联合训练方法、装置及设备
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种基于非对称联邦学习的模型联合训练方法、装置及设备。
背景技术
在当前的信息时代,用户在多种场景下均能够产生用户数据,例如,用户信贷数据、用户医疗数据、用户消费数据等,这些数据均是由各自的提供方保存的。目前提出了一种联合训练分类模型的方法,能够根据多个提供方拥有的样本数据联合训练分类模型,从而基于分类模型对用户数据进行分类。
在多方联合训练分类模型的过程中,每个提供方会根据自己拥有的样本数据进行分类,还会将分类信息分享给其他提供方,分类信息中能够表示哪些样本数据属于哪一种类别,造成了信息泄露,导致安全性差。
发明内容
本申请实施例提供了一种基于非对称联邦学习的模型联合训练方法、装置及设备,能够提高安全性。所述技术方案如下。
一方面,提供了一种基于非对称联邦学习的模型联合训练方法,所述方法包括:
获取本地存储的多个第一样本数据及对应的第一样本标识和指示标识,所述指示标识用于指示对应的第一样本标识是否用于确定分类模型中的分类条件;
对所述多个第一样本数据进行分类,并确定第一分类信息,所述第一分类信息包括至少两个第一指示信息,每个第一指示信息包括与分类得到的每个样本数据集对应的第一样本标识和指示标识;
向第一设备发送获取到的多个第一样本标识和对应的加密指示标识,所述加密指示标识是对所述第一样本标识对应的指示标识加密得到的;
接收所述第一设备发送的第二分类信息,所述第二分类信息是由所述第一设备对所述多个第一样本标识对应的第二样本数据进行分类得到的,所述第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识;
基于所述第一分类信息和所述第二分类信息训练所述分类模型。
另一方面,提供了一种基于非对称联邦学习的模型联合训练方法,所述方法包括:
根据多个第二样本数据在任一第二维度的特征值,对所述多个第一样本数据进行排序,得到所述任一第一维度对应的第三样本数据集,所述第二样本数据包括多个第二维度的特征值;
根据所述第三样本数据集中的所述多个第二样本数据的排列顺序,生成加密标识集,所述加密标识集包括所述多个第二样本数据对应的多个加密指示标识,每个第二样本数据对应的加密指示标识是由第二设备发送的;
向所述第二设备发送所述加密标识集,所述第二设备用于对所述加密标识集中的加密指示标识进行解密,得到解密标识集,根据所述解密标识集中的指示标识的排列顺序,确定至少一个分割序号,返回所述至少一个分割序号;
根据所述第二设备发送的所述至少一个分割序号,对所述第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息,所述第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识;
向所述第二设备发送所述多个第二分类信息,所述第二设备基于所述多个第二分类信息训练分类模型。
另一方面,提供了一种基于非对称联邦学习的模型联合训练装置,所述装置包括:
获取模块,用于获取本地存储的多个第一样本数据及对应的第一样本标识和指示标识,所述指示标识用于指示对应的第一样本标识是否用于确定分类模型中的分类条件;
分类模块,用于对所述多个第一样本数据进行分类,并确定第一分类信息,所述第一分类信息包括至少两个第一指示信息,每个第一指示信息包括与分类得到的每个样本数据集对应的第一样本标识和指示标识;
发送模块,用于向第一设备发送获取到的多个第一样本标识和对应的加密指示标识,所述加密指示标识是对所述第一样本标识对应的指示标识加密得到的;
接收模块,用于接收所述第一设备发送的第二分类信息,所述第二分类信息是由所述第一设备对所述多个第一样本标识对应的第二样本数据进行分类得到的,所述第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识;
训练模块,用于基于所述第一分类信息和所述第二分类信息训练所述分类模型。
另一方面,提供了一种基于非对称联邦学习的模型联合训练装置,所述装置包括:
排序模块,用于根据多个第二样本数据在任一第二维度的特征值,对所述多个第一样本数据进行排序,得到所述任一第一维度对应的第三样本数据集,所述第二样本数据包括多个第二维度的特征值;
生成模块,用于根据所述第三样本数据集中的所述多个第二样本数据的排列顺序,生成加密标识集,所述加密标识集包括所述多个第二样本数据对应的多个加密指示标识,每个第二样本数据对应的加密指示标识是由第二设备发送的;
发送模块,用于向所述第二设备发送所述加密标识集,所述第二设备用于对所述加密标识集中的加密指示标识进行解密,得到解密标识集,根据所述解密标识集中的指示标识的排列顺序,确定至少一个分割序号,返回所述至少一个分割序号;
确定模块,用于根据所述第二设备发送的所述至少一个分割序号,对所述第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息,所述第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识;
所述发送模块,还用于向所述第二设备发送所述多个第二分类信息,所述第二设备基于所述多个第二分类信息训练分类模型。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的基于非对称联邦学习的模型联合训练方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的基于非对称联邦学习的模型联合训练方法中所执行的操作。
再一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述方面所述的基于非对称联邦学习的模型联合训练方法中所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的方法、装置、计算机设备及存储介质,提供了一种联合训练分类模型的方式,在训练分类模型的过程中,其他提供方分享给当前提供方的分类信息中仅包括了样本数据对应的加密指示标识,使得当前提供方无法基于分类信息来推测出该其他提供方的样本数据,避免了信息泄露。并且在训练分类模型的样本标识中,掺杂了不用于确定分类模型中分类条件的样本标识,即掺杂了虚假样本标识,以使其他提供方无法获知多个样本标识中用于确定分类模型中的分类条件的样本标识,从而保证了训练样本标识的隐私,从而提高了安全性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种模型联合训练方法的实施环境的结构示意图;
图2是本申请实施例提供的一种基于非对称联邦学习的模型联合训练方法的流程图;
图3是本申请实施例提供的另一种基于非对称联邦学习的模型联合训练方法的流程图;
图4是本申请实施例提供的又一种基于非对称联邦学习的模型联合训练方法的流程图;
图5是本申请实施例提供的一种获取分割序号的流程图;
图6是本申请实施例提供的一种节点树的结构示意图;
图7是本申请实施例提供的一种基于非对称联邦学习对分类模型联合训练的流程图;
图8是本申请实施例提供的另一种基于非对称联邦学习对分类模型联合训练的流程图;
图9是本申请实施例提供的一种基于非对称联邦学习的模型联合训练装置的结构示意图;
图10是本申请实施例提供的另一种基于非对称联邦学习的模型联合训练装置的结构示意图;
图11是本申请实施例提供的又一种基于非对称联邦学习的模型联合训练装置的结构示意图;
图12是本申请实施例提供的再一种基于非对称联邦学习的模型联合训练装置的结构示意图;
图13是本申请实施例提供的一种终端的结构示意图;
图14是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请所使用的术语“第一”、“第二”、“第三”、“第四”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一分类信息称为第二分类信息,且类似地,能够将第二分类信息称为第一分类信息。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个第一样本数据包括3个第一样本数据,而每个是指这3个第一样本数据中的每一个第一样本数据,任一是指这3个第一样本数据中的任意一个,能够是第一个,或者,是第二个,或者,是第三个。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的方案,基于人工智能的机器学习技术,能够训练分类模型,利用训练后的分类模型,能够对用户数据进行分类。
联邦学习是一种新兴的人工智能技术,能帮助多个提供方在满足用户隐私保护、数据安全的要求下,进行数据使用和机器学习建模,通过多个提供方基于各自存储的数据来联合训练同一个模型。联邦学习能够有效解决数据孤岛问题,让提供方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现多方协作。
非对称联邦学习是参与训练同一个模型的多个提供方对用于训练的样本标识的信息获取程度不同,多个提供方在进行隐私样本对齐后,使得多个提供方获知各个提供方共同拥有的样本标识,但在多个提供方中,仅有部分提供方能够将共同拥有的多个样本标识区分开,即能够获知多个样本标识中,用于确定分类模型的分类条件的样本标识,以及不用于确定分类模型的分类条件的样本标识,而其他提供方仅获知共同拥有的多个样本标识,并不知道每个样本标识是否用于确定分类模型的分类条件,这种方式保护了部分提供方对样本标识的隐私。
本申请实施例提供的基于非对称联邦学习的模型联合训练方法,能够应用于计算机设备中。可选地,该计算机设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式系统,或者,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等终端,但并不局限于此。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括第一设备101和第二设备102。第一设备101和第二设备102之间通过无线或者有线网络连接。可选地,第一设备101为终端或服务器。可选地,第二设备102为终端或服务器。
第一设备101和第二设备102能够通过网络连接进行交互,基于双方共同拥有的样本标识所对应的样本数据,联合训练分类模型。并且,在联合训练分类模型的过程中,第一设备101作为训练分类模型的主导方,基于本地的第一分类信息,并联合第二设备102提供的第二分类信息,来训练分类模型。
在一种可能实现方式中,第一设备101和第二设备102构成了一种联合训练系统。在该联合训练系统中,第一设备101和第二设备102进行样本对齐,并在样本对齐之后,第一设备101作为训练分类模型的主导方,联合第二设备102提供的信息联合训练分类模型。
本申请实施例提供的方法,可用于多种场景。
例如,风险等级评估场景下:
第一设备为即时通讯应用对应的服务器,第二设备为银行服务器,第一设备和第二设备共同拥有多个用户标识,即时通讯应用对应的服务器中存储有多个用户标识对应的第一样本数据及指示标识,银行服务器中存储有多个用户标识对应的第二样本数据,该第二样本数据用于指示对应的用户标识的消费情况,采用本申请实施例提供的基于非对称联邦学习的模型联合训练方法,第一设备联合第二设备训练分类模型,之后基于训练的分类模型对用户数据进行分类,以确定用户数据所属的风险等级,以便后续根据用户数据所属的风险等级来确定用户的还款逾期风险,或者为用户确定资金使用额度等。
例如,物品推荐场景下:
第一设备为购物应用对应的服务器,第二设备为即时通讯应用对应的服务器,第一设备和第二设备共同拥有多个用户标识,购物应用对应的服务器中存储有多个用户标识对应的第一样本数据及指示标识,该第一样本数据用于指示对应的用户标识的历史购物信息,即时通讯应用对应的服务器中存储有多个用户标识对应的第二样本数据,该第二样本数据用于指示对应的用户标识的好友关系、及自己的其他信息,采用本申请实施例提供的基于非对称联邦学习的模型联合训练方法,第一设备联合第二设备训练分类模型,之后基于训练的分类模型对用户数据进行分类,以确定用户数据所属的类别,以便后续基于用户所属的类别来推荐符合其喜好的物品。
图2是本申请实施例提供的一种基于非对称联邦学习的模型联合训练方法的流程图,执行主体为第二设备,如图2所示,该方法包括以下步骤。
201、第二设备获取本地存储的多个第一样本数据及对应的第一样本标识和指示标识。
其中,指示标识用于指示对应的第一样本标识是否用于确定分类模型中的分类条件。在本申请实施例中,每个第一样本数据对应有一个第一样本标识及一个指示标识,且多个第一样本标识中包括用于确定分类模型中的分类条件的第一样本标识,以及不用于确定分类模型中的分类条件第一样本标识。
202、第二设备对多个第一样本数据进行分类,并确定第一分类信息。
其中,第一分类信息包括至少两个第一指示信息,每个第一指示信息包括与分类得到的每个样本数据集对应的第一样本标识和指示标识。该第一分类信息用于指示对多个第一样本数据的分类结果,是通过对第二设备中存储的多个第一样本数据进行分类得到的。
通过对多个第一样本数据进行分类得到至少两个样本数据集,生成每个样本数据集对应的第一指示信息,由得到至少两个第一指示信息构成该第一分类信息。
203、第二设备向第一设备发送获取到的多个第一样本标识和对应的加密指示标识。
其中,加密指示标识是对第一样本标识对应的指示标识加密得到的。
204、第二设备接收第一设备发送的第二分类信息。
在本申请实施例中,第一设备中存储有多个第一样本标识对应的第二样本数据,第二分类信息是由第一设备对多个第一样本标识对应的第二样本数据进行分类得到的,第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识。该第二分类信息用于指示对多个第二样本数据的分类结果,是通过对第一设备中存储的多个第二样本数据进行分类得到的。
205、第二设备基于第一分类信息和第二分类信息训练分类模型。
由于第一分类信息和第二分类信息是由联合训练的第一设备和第二设备提供的不同分类结果,丰富了训练分类模型的信息,之后基于该不同分类结果来训练分类模型,以提高分类模型的准确性。
本申请实施例提供了一种联合训练分类模型的方式,在训练分类模型的过程中,其他提供方分享给当前提供方的分类信息中仅包括了样本数据对应的加密指示标识,使得当前提供方无法基于分类信息来推测出该其他提供方的样本数据,避免了信息泄露。并且在训练分类模型的样本标识中,掺杂了不用于确定分类模型中分类条件的样本标识,即掺杂了虚假样本标识,以使其他提供方无法获知多个样本标识中用于确定分类模型中的分类条件的样本标识,从而保证了训练样本标识的隐私,从而提高了安全性。
图3是本申请实施例提供的一种基于非对称联邦学习的模型联合训练方法的流程图,执行主体为第一设备,如图3所示,该方法包括以下步骤。
301、第一设备根据多个第二样本数据在任一第二维度的特征值,对多个第二样本数据进行排序,得到任一第二维度对应的第三样本数据集。
其中,第二样本数据包括多个第二维度的特征值,该第三样本数据集中包括该多个第二样本数据,且该多个第二样本数据按照在该任一第二维度的特征值的大小排序。
302、第一设备根据第三样本数据集中的多个第二样本数据的排列顺序,生成加密标识集。
其中,加密标识集包括多个第二样本数据对应的多个加密指示标识,每个第二样本数据对应的加密指示标识是由第二设备发送的,且每个加密指示标识在加密标识集中的序号与该加密指示标识对应的第二样本数据在第三样本数据集中的序号相同。
303、第一设备向第二设备发送加密标识集。
其中,第二设备用于对加密标识集中的加密指示标识进行解密,得到解密标识集,根据解密标识集中的指示标识的排列顺序,确定至少一个分割序号,返回至少一个分割序号,该分割序号是用于分割第三样本数据集的序号。第二设备返回确定的至少一个分割序号,以便后续第一设备根据该至少一个分割序号对第三样本数据集进行分割。
304、第一设备根据第二设备发送的至少一个分割序号,对第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息。
其中,该第二分类信息用于指示对多个第二样本数据的分类结果,第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识。
305、第一设备向第二设备发送多个第二分类信息,由第二设备基于多个第二分类信息训练分类模型。
由于第一分类信息和第二分类信息是由联合训练的第一设备和第二设备提供的不同分类结果,因此,丰富了训练分类模型的信息,之后由第一设备基于该不同分类结果来训练分类模型,以提高分类模型的准确性。
本申请实施例提供了一种联合训练分类模型的方式,在训练分类模型的过程中,其他提供方分享给当前提供方的分类信息中仅包括了样本数据对应的加密指示标识,使得当前提供方无法基于分类信息来推测出该其他提供方的样本数据,避免了信息泄露。并且在训练分类模型的样本标识中,掺杂了不用于确定分类模型中分类条件的样本标识,即掺杂了虚假样本标识,以使其他提供方无法获知多个样本标识中用于确定分类模型中的分类条件的样本标识,从而保证了训练样本标识的隐私,从而提高了安全性。
图4是本申请实施例提供的一种基于非对称联邦学习的模型联合训练方法的流程图,交互主体包括第一设备和第二设备,如图4所示,该方法包括以下步骤。
401、第二设备获取本地存储的多个第二样本标识。
其中,多个第二样本标识用于指示多个用户,每个第二样本标识为用户的手机号、身份证号等。多个第二样本标识中包括用于确定分类模型中的分类条件的样本标识,及不用于确定分类模型中的分类条件,分类条件是分类模型对用户数据进行分类的条件,例如,分类条件为“年龄小于15岁”,或“每月消费金额大于1000元”等。在多个第二样本标识中,用于确定分类模型中的分类条件的样本标识为真实样本标识,不用于确定分类模型中的分类条件的样本标识为虚假样本标识。可选地,分类模型为梯度提升树模型,或者其他网络模型。
在一种可能实现方式中,该步骤401包括:第二设备获取多个第二样本标识及每个第二样本标识对应的指示标识。
其中,指示标识用于指示对应的第二样本标识是否用于确定分类模型中的分类条件。例如,指示标识为1,表示对应的第二样本标识用于确定分类模型中的分类条件,即该第二样本标识是真实样本标识;指示标识为0,表示对应的第二样本标识不用于确定分类模型中的分类条件,即该第二样本标识是虚假样本标识。
在一种可能实现方式中,获取多个第二样本标识的过程包括:第二设备从本地存储的数据库中获取多个第二样本标识。其中,该数据库用于存储在第二设备上注册的第二样本标识。例如,第二设备为即时通讯应用对应的服务器,该第二样本标识为在服务器上注册的用户标识。
402、第二设备对每个第二样本标识进行加密处理,得到每个第二样本标识的第一加密数值。
其中,不同的第二样本标识对应的第一加密数值不同,即在得到的多个第一加密数值中,任两个第一加密数值不同。
在本申请实施例中,两个数据提供方联合训练分类模型之前,需要该两个数据提供方来确定出双方共同拥有的第一样本标识,从而实现用于训练分类模型的样本对齐。由于第一设备中存储的用户标识和第二设备中存储的用户标识可能存在不同,在样本对齐过程中,为了避免除了双方共同拥有的第一样本标识外的其他样本标识的泄露,需要在样本对齐之前对每一方自己拥有的样本标识进行加密,之后根据加密得到的加密数值进行样本对齐,得到双方共同拥有的样本标识。
在一种可能实现方式中,该步骤402包括以下步骤4021-4024。
4021、第二设备对每个第二样本标识进行变换,得到每个第二样本标识的变换值。
在本申请实施例中,不同的第二样本标识对应的变换值不同。对第二样本标识进行变换时,能够采取任意的变换算法,例如,对第二样本标识进行变换的过程,能够采取哈希变换的方式,获取每个第二样本标识对应的哈希值。
4022、第二设备根据公钥对每个第二样本标识对应的随机数进行加密,并将加密后的数值与对应的变换值的乘积,确定为每个第二样本标识的第三加密数值,向第一设备发送得到的多个第三加密数值。
其中,每个第二样本标识对应有一个随机数,每个第二样本标识对应的随机数是由第一设备随机生成的。公钥用于对随机数进行加密,可选地,该公钥是由第一设备发送的。第二设备在获取到每个第二样本标识对应的第三加密数值后,即获取到多个第三加密数值,则向第一设备发送多个第三加密数值,以便后续通过第一设备对第三加密数值进行处理。
在一种可能实现方式中,公钥为任意的数值,则对随机数加密的过程包括:对于任一第二样本标识对应的随机数,将该随机数的公钥次幂,作为该随机数加密后的数值。
在一种可能实现方式中,任一第二样本标识、该第二样本标识对应的随机数及第三加密数值,满足以下关系:
Figure 578198DEST_PATH_IMAGE001
其中,
Figure 308387DEST_PATH_IMAGE002
表示第三加密数值,
Figure 416021DEST_PATH_IMAGE003
表示第二样本标识
Figure 14492DEST_PATH_IMAGE004
对应的随机数,
Figure 907493DEST_PATH_IMAGE005
表示公钥,
Figure 57852DEST_PATH_IMAGE004
表示第二样本标识,
Figure 872355DEST_PATH_IMAGE006
表示第二样本标识
Figure 133572DEST_PATH_IMAGE004
的变换值。
4023、第一设备接收该第二设备发送的多个第三加密数值,根据公钥对应的私钥对多个第三加密数值进行解密,得到多个第四加密数值,向该第二设备发送多个第四加密数值。
在本申请实施例中,第一设备中存储有公钥对应的私钥。在第一设备获取到多个第三加密数值后,对每个第三加密数值进行解密,得到每个第三加密数值对应的第四加密数值。
在一种可能实现方式,私钥为任意的数值,则第三加密数值进行解密的过程包括:对于任一第三加密数值,将该第三加密数值的私钥次幂,作为该第三加密数值对应的第四加密数值。
在一种可能实现方式中,任一第三加密数值、私钥及该第三加密数值对应的第四加密数值满足以下关系:
Figure 898658DEST_PATH_IMAGE007
Figure 219917DEST_PATH_IMAGE008
其中,
Figure 177509DEST_PATH_IMAGE009
表示第四加密数值,
Figure 727570DEST_PATH_IMAGE010
表示第三加密数值,
Figure 313272DEST_PATH_IMAGE003
表示第二样本标识
Figure 821745DEST_PATH_IMAGE004
对应的随机数,
Figure 125688DEST_PATH_IMAGE005
表示公钥,
Figure 479440DEST_PATH_IMAGE004
表示第二样本标识,
Figure 450807DEST_PATH_IMAGE006
表示第二样本标识
Figure 599023DEST_PATH_IMAGE004
的变换值,
Figure 531206DEST_PATH_IMAGE011
表示私钥。
4024、第二设备接收第一设备发送的多个第四加密数值,确定每个第四加密数值与对应的随机数的比值,对每个第四加密数值对应的比值进行变换,得到每个第二样本标识的第一加密数值。
其中,第四加密数值对应的随机数即为该第四加密数值对应的第三加密数值所对应的随机数。在对每个第四加密数值对应的比值进行变换时,能够采用哈希变换的方式,获取每个比值对应的哈希值,即为每个第二样本标识的第一加密数值。
在一种可能实现方式中,第二设备在获取到每个第二样本标识对应的第三加密数值后,存储每个第二样本标识对应的第三加密数值和随机数,则该步骤4024包括:第二设备接收第一设备发送的多个第三加密数值及每个第三加密数值对应的第四加密数值,根据存储的第二样本标识对第三加密数值和随机数之间的对应关系,确定每个第四加密数值对应的随机数,确定每个第四加密数值与对应的随机数的比值,对每个第四加密数值对应的比值进行变换,得到每个第二样本标识的第一加密数值。
在一种可能实现方式中,任一第四加密数值、对应的随机数及对应的第一加密数值满足以下关系:
Figure 672338DEST_PATH_IMAGE012
其中,
Figure 248944DEST_PATH_IMAGE013
表示第一加密数值,
Figure 348487DEST_PATH_IMAGE003
表示第四加密数值对应的随机数,
Figure 112175DEST_PATH_IMAGE004
表示第二样本标识,
Figure 322576DEST_PATH_IMAGE006
表示第二样本标识
Figure 878322DEST_PATH_IMAGE004
的变换值,
Figure 165078DEST_PATH_IMAGE011
表示私钥。
403、第一设备对本地存储的多个第三样本标识进行加密处理,得到多个第二加密数值,向第二设备发送多个第二加密数值。
其中,多个第三样本标识用于指示多个用户,每个第三样本标识为用户的手机号、身份证号等,不同的第三样本标识对应的第二加密数值不同,即在得到的多个第二加密数值中,任两个第二加密数值不同。第一设备通过将本地的第三样本标识进行加密处理,并将加密得到的第二加密数值发送至第二设备,以便后续第二设备根据第二加密数值来确定双方共同拥有的样本标识,且避免了第一设备中存储的除了共同拥有的样本标识外的其他样本标识的泄露,从而保证了样本标识的安全性。
在一种可能实现方式中,该步骤403包括:第一设备对每个第三样本标识进行变换,得到每个第三样本标识的变换值,根据私钥对每个变换值进行加密,得到每个第三样本标识对应的加密值,对每个第三样本标识对应的加密值进行变换,得到每个第三样本标识对应的第二加密数值。
可选地,私钥、任一第三样本标识及对应的第二加密数值,满足以下关系:
Figure 930909DEST_PATH_IMAGE014
其中,
Figure 820368DEST_PATH_IMAGE015
表示第二加密数值,
Figure 631286DEST_PATH_IMAGE016
表示第三样本标识,
Figure 947997DEST_PATH_IMAGE017
表示第三样本标识
Figure 466703DEST_PATH_IMAGE016
的变换值,
Figure 159853DEST_PATH_IMAGE011
表示私钥。
404、第二设备接收第一设备发送的多个第二加密数值,对得到的多个第一加密数值及多个第二加密数值进行对比,响应于任一第一加密数值与任一第二加密数值相同,将第一加密数值对应的第二样本标识确定为第一样本标识,并获取本地存储的确定的多个第一样本标识对应的多个第一样本数据和指示标识。
其中,第一样本标识为第一设备和第二设备共同拥有的样本标识。在本申请实施例中,第一设备中获知每个第一样本标识对应的指示标识,第二设备仅能获知双方共同拥有的第一样本标识,无法获知每个第一样本标识对应的指示标识。指示标识用于指示对应的第一样本标识是否用于确定分类模型中的分类条件。
在本申请实施例中,第一设备和第二设备采用同样的加密算法对样本标识进行处理,且对于第一设备和第二设备共同拥有的任一第一样本标识,该第一样本标识对应的第一加密数值和第二加密数值相同,因此,在获取到第一设备发送的多个第二加密数值后,通过对比多个第一加密数值和多个第二加密数值,能够从中确定出相同的加密数值,从而确定相同的加密数值对应的样本标识,即为第一样本标识。第一设备在确定多个第一样本标识后,即可从本地获取每个第一样本标识对应的第一样本数据和指示标识,以便后续基于获取到的信息训练分类模型。另外,在第一设备与第二设备进行样本标识对齐的过程中,能够采用盲签名和RSA(ron Rivest、adi Shamir、leonard Adleman,一种加密算法)对样本标识进行交互加密方案来实现样本对齐。
本申请实施例提供了一种隐私样本方式,在多个提供方进行样本标识对齐的过程中,多个提供方分别对各自拥有的样本标识进行加密,之后由任一提供方对加密后的加密数值进行比对,从而确定多个提供方共同拥有的样本标识,且避免了其他样本标识的泄露,保证了样本标识的安全性。
在一种可能实现方式中,第二设备中存储有第二样本标识与第一加密数值之间的对应关系,在确定任一第一加密数值与任一第二加密数值相同时,即可确定该第一加密数值对应的第二样本标识,将确定的第二样本标识作为第一样本标识。
可选地,在确定多个第一样本标识之后,向第一设备发送该多个第一样本标识,第一设备接收该多个第一样本标识,获取本地存储的多个第一样本标识对应的第二样本数据。其中,该第二样本数据为对应的第一样本标识在第一设备中存储的样本数据。
在一种可能实现方式中,在对多个第一加密数值及多个第二加密数值进行对比时,响应于任一第一加密数值与任一第二加密数值相同,将该第二加密数值确定为目标加密数值,将确定的多个目标加密数值发送至第一设备,第一设备接收该多个目标加密数值,根据第二加密数值与第三样本标识之间的对应关系,确定该多个目标加密数值对应的第三样本标识,将确定的第三样本标识作为第一样本标识,获取多个第一样本标识对应的第二样本数据,并向第二设备发送多个第一样本标识,第二设备接收该多个第一样本标识,获取该多个第一样本标识对应的第一样本数据和指示标识。
在一种可能实现方式中,在第二设备获取到多个第一样本标识对应的多个第一样本数据和指示标识后,生成分类模型中节点树的根节点,之后将该根节点作为当前节点,后续第一设备和第二设备联合训练该当前节点,得到该当前节点的两个子节点。其中,分类模型是用于对用户数据进行分类的模型,该分类模型中包括至少一个节点树,每个节点树包括多个节点,节点树的根节点中包括多个第一样本标识,表示该多个第一样本标识均与该根节点关联。
需要说明的是,本申请实施例是第一设备与第二设备进行交互,来获取多个第一样本标识及对应的第一样本数据和指示标识的,而在另一实施例中,无需执行步骤401-404,第一设备能够采取其他方式,获取本地存储的多个第一样本数据及对应的第一样本标识和指示标识。
405、第二设备根据多个第一样本数据在任一第一维度的特征值,对多个第一样本数据进行排序,得到该任一第一维度对应的第一样本数据集。
其中,每个第一样本数据包括多个第一维度的特征值,例如,对于任一第一样本数据,该第一样本数据为样本用户数据,该样本用户数据包括的多个第一维度为性别、年龄、职业、每月消费金额等,该样本用户数据在性别维度上的特征值为“男”或“女”,在年龄维度上的特征值为“15”或“30”等。
在确定多个第一样本数据在该任一第一维度上的特征值后,根据该多个第一样本数据在该任一第一维度的特征值的大小,对该多个第一样本数据进行排序,在得到的该任一第一维度对应的第一样本数据集中,该多个第一样本数据按照在任一第一维度的特征值由大到小的顺序排列,或者,该多个第一样本数据按照在任一第一维度的特征值由小到大的顺序排列。
需要说明的是,本申请实施例仅是按照多个第一样本数据在任一第一维度的特征值进行排序的,而在另一实施例中,第一设备根据多个第一样本数据在每个第一维度的特征值,分别对多个第一样本数据进行排序,得到每个第一维度对应的第一样本数据集,即得到了多个第一样本数据集。其中,每个第一维度对应的第一样本数据集中均包括该多个第一样本数据,且对于不同的第一维度对应的第一样本数据集,不同的第一样本数据集中所包含的多个第一样本数据的排列顺序可能不同。
406、第二设备根据该任一第一维度对应的第一分割阈值,对第一样本数据集进行分割,并确定第一分类信息。
其中,第一分割阈值为该任一第一维度的特征阈值,该第一分割阈值用于对多个第一样本数据进行分类。例如,该第一维度为年龄维度,该年龄维度的第一分割阈值为20,即后续将多个第一样本数据按照年龄维度的特征值是否大于20,分成两个样本数据集。第一分类信息包括至少两个第一指示信息,每个第一指示信息包括与分类得到的每个样本数据集对应的第一样本标识和指示标识。例如,该任一第一维度为年龄维度,该第一分割阈值为“20”,则确定的第一分类信息中包括两个第一指示信息,一个第一指示信息中包括对应的年龄小于20的第一样本标识及对应的指示标识,另一个第一指示信息包括对应的年龄不小于20的第一样本标识及对应的指示标识。
根据该任一第一维度对应的第一分割阈值,将第一样本数据集进行分割成两个样本数据集,并确定分割得到的两个样本数据集对应的第一指示信息,由得到的第一指示信息构成该第一分类信息。按照上述方式,根据每个第一维度对应的第一分割阈值,能够获取到每个第一维度对应的第一分类信息,即得到多个第一分类信息。
通过对多个第一样本数据进行排序,之后根据第一分割阈值对排序得到的第一样本数据集进行分割,以保证分割得到至少两个样本数据集中,任一样本数据集中包括的第一样本数据在该任一第一维度的特征值均小于该第一分割阈值,或者均不小于该第一分割阈值,保证了分割的准确性,从而保证了第一分类信息的准确性。
在一种可能实现方式中,该步骤406包括:响应于多个第一样本标识对应的第一指示标识的数目不小于第三数目阈值,根据该任一第一维度对应的第一分割阈值,对第一样本数据集进行分割,并确定第一分类信息。
其中,第三数目阈值为任意的数值,例如,该第三数目阈值为100或50等。第一指示标识用于指示对应的第一样本标识用于确定分类模型中的分类条件,即该第一指示标识用于指示真实样本标识,并且,该真实样本标识对应的第一样本数据即为真实样本数据。
在本申请实施例中,通过设置第三数目阈值,仅在多个第一样本标识对应的第一指示标识的数目不小于第三数目阈值的情况下,才对多个第一样本数据进行分类,以保证得到的分类信息的准确性。
在一种可能实现方式中,该步骤406包括:根据多个第一样本标识对应的指示标识,将第一样本数据集分割为多个第二样本数据集,分别将每个第二样本数据集在任一第一维度的最小特征值确定为第一分割阈值,根据确定的多个第一分割阈值,分别对第一样本数据集进行分割,并确定多次分割结果对应的多个第一分类信息。
其中,每个第二样本数据集对应的第一指示标识的数目相同,第一指示标识用于指示对应的第一样本标识用于确定分类模型中的分类条件,即该第一指示标识用于指示真实样本标识,并且,该真实样本标识对应的第一样本数据即为真实样本数据。得到的多个第一分类信息均为该任一第一维度对应的分类信息。
在对多个第一样本数据排序得到第一样本数据集后,根据该第一样本数据集中多个第一样本数据的排列顺序,及该多个第一样本数据所对应的多个第一样本标识对应的指示标识,将第一样本数据集划分成多个第二样本数据集,以保证每个第二样本数据集对应的第一指示标识的数目相同。之后,将每个第二样本数据集中的第一样本数据在该任一第一维度的最小特征值确定为第一分割阈值,即可得到该任一第一维度对应的多个第一分割阈值,按照每个第一分割阈值,对第一样本数据集进行分割,得到每个第一分割阈值对应的分割结果,该分割结果即为分割得到的样本数据集,根据多个分割结果,能够确定每个分割结果对应的第一分类信息,从而得到多个第一分类信息。
通过采用等频分箱的方式,对第一样本数据集进行分割,以保证分割得到的每个第二样本数据集包含的真实样本数据的数目相同,并根据等频分箱的结果确定的多个第一分割阈值,来分割第一样本数据集,以避免由于第一分割阈值的不准确,而无法分割第一样本数据集的情况,提高了第一分割阈值的准确性,并且,后续基于得到的第一分割阈值来确定第一分类信息,保证了第一分类信息的准确性。
可选地,对第一样本数据集分割的过程包括:根据多个第一样本标识对应的指示标识及目标数目,将第一样本数据集分割为目标数目个第二样本数据集。其中,目标数目为任意数目,如目标数目为5或6等。
需要说明的是,本申请实施例仅是对任一第一维度对应的第一样本数据集进行分割,来确定该任一第一维度对应的多个第一分割阈值,并根据任一第一维度对应的多个第一分割阈值,对第一样本数据集进行分割,得到该第一维度对应的多个第一分类信息的,而在另一实施例中,在得到每个第一维度对应的第一样本数据集的情况下,按照上述方式,分别确定每个第一维度对应的多个第一分类信息。
需要说明的是,本申请实施例是先对第一样本数据进行排序,之后再确定第一分类信息的,而在另一实施例中,无需执行步骤405-406,能够采取其他方式,按照每个第一样本数据在任一第一维度的特征值是否大于任一第一维度对应的第一分割阈值,对多个第一样本数据进行分类,并确定第一分类信息。
需要说明的是,本申请实施例是在每个第一样本数据包括多个第一维度的特征值的情况下,根据任一第一维度对应的第一分割阈值来确定第一分类信息的,而在另一实施例中,无需执行步骤405-406,第二设备能够采取其他方式,对多个第一样本数据进行分类,并确定第一分类信息。
在一种可能实现方式中,获取第一分类信息的过程包括:响应于多个第一样本标识对应的第一指示标识的数目不小于第三数目阈值,对多个第一样本数据进行分类,并确定第一分类信息。
407、第二设备对每个第一样本标识对应的指示标识进行加密,得到多个第一样本标识对应的加密指示标识,向第一设备发送该多个第一样本标识和对应的加密指示标识。
其中,对指示标识进行加密时,能够采用Paillier(一种同态加密算法),或者其他加法同态且无语义性的安全加密算法。
在本申请实施例中,第二设备已知每个第一样本标识对应的指示标识,通过对指示标识加密,向第一设备发送加密指示标识,以使第一设备仅能获知每个第一样本标识对应的加密指示标识,无法通过加密指示标识来获知对应的第一样本标识是否用于确定分类模型中的分类条件,以避免第一设备通过第一样本标识对应的指示标识来推测出第二设备中的第一样本数据,保证了第二设备中的第一样本数据的安全性。
408、第一设备接收该多个第一样本标识和对应的加密指示标识。
第一设备在接收到多个第一样本标识和对应的加密指示标识,将第一样本标识与加密指示标识对应存储,以便后续基于第一样本标识与加密指示标识之间的对应关系来确定任一第一样本标识对应的加密指示标识。
需要说明的是,本申请实施例是先确定第一分类信息,再向第一设备发送加密指示标识的,而在另一实施例中,在执行步骤404之后,先执行步骤407和步骤408,再执行步骤405和步骤406。
409、第一设备根据多个第二样本数据在任一第二维度的特征值,对多个第二样本数据进行排序,得到任一第二维度对应的第三样本数据集,根据第三样本数据集中的多个第二样本数据的排列顺序,生成加密标识集,向第二设备发送该加密标识集。
其中,每个第二样本数据包括多个第二维度的特征值,且对于同一个第一样本标识对应的第一样本数据和第二样本数据,该第一样本数据和该第二样本数据可能包括相同的特征维度,也可能该第一样本数据包括的多个第一维度和该第二样本数据包括的多个第二维度均不同。加密标识集包括多个加密指示标识,每个加密指示标识对应一个第二样本数据,且每个加密指示标识在加密标识集中的序号,与对应的第二样本数据在第三样本数据集中的序号相同。例如,对于任一第二样本数据,该第二样本数据在第三样本数据集中的序号为3,则该第二样本数据对应的加密指示标识在加密标识集中的序号也为3。
第一设备获取第三样本数据集的过程,与上述步骤405同理,在此不再赘述。
需要说明的是,本申请实施例仅是按照多个第二样本数据在任一第二维度的特征值进行排序的,而在另一实施例中,第一设备根据多个第二样本数据在每个第二维度的特征值,分别对多个第二样本数据进行排序,得到每个第二维度对应的第三样本数据集,即得到了多个第三样本数据集,并生成每个第三样本数据集对应的加密标识集,即生成多个加密标识集,并向第二设备发送多个加密标识集。其中,每个第二维度对应的第三样本数据集中均包括该多个第二样本数据,且对于不同的第二维度对应的第三样本数据集,不同的第三样本数据集中所包含的多个第二样本数据的排列顺序可能不同。
410、第二设备接收第一设备发送的加密标识集,对加密标识集中的加密指示标识进行解密,得到解密标识集,根据解密标识集中的指示标识的排列顺序,确定至少一个分割序号,向第一设备发送至少一个分割序号。
其中,解密标识集包括多个指示标识,且该多个指示标识与该加密标识集中的多个加密指示标识一一对应,且任一指示标识在该解密标识集的序号,与对应的加密指示标识在加密标识集中的序号相同。该分割序号用于将解密标识集分割成多个解密标识子集,且每个解密标识子集中包括的第一指示标识的数目相同,以便后续第一设备根据该至少一个分割序号将第三样本数据集分割成与对应的第一指示标识的数目相同的多个第四样本数据集。
由于加密标识集中包括的多个加密指示标识均是由第一设备对指示标识加密得到的,则通过对加密标识集中的加密指示标识进行解密,得到解密标识集,且根据解密标识集中多个指示标识的排列顺序,确定至少一个分割序号,以使该至少一个分割序号将该解密标识集分割成多个解密标识子集,且每个解密标识子集中包括的第一指示标识的数目相同。
例如,指示标识为1,用于指示对应的第一样本标识用于确定分类模型中的分类条件,指示标识为0,用于指示对应的第一样本标识不用于确定分类模型中的分类条件。如图5所示,图中[[1]]为加密的指示标识,[1]为解密后的指示标识,解密标识集中包括的多个指示标识为“0,0,1,1,1,1,1”,则根据该解密标识集中的指示标识的排列顺序,确定的多个分割序号为3、4、5、6,则通过该多个分割序号,能够将该解密标识分为多个解密标识子集,如“0,0,1”、“1”、“1”、“1”、“1”,得到的多个解密标识子集中的第一指示标识数目相同。
在一种可能实现方式中,确定至少一个分割序号的过程包括:根据解密标识集中的指示标识的排列顺序及目标数目,确定至少一个分割序号。
其中,确定的分割序号的数目比目标数目小1。通过确定的至少一个分割序号,以便后续第一设备能够将第三样本数据集分割成目标数目个样本数据集。
需要说明的是,本申请实施例仅是以获取一个加密标识集对应的至少一个分割序号为例进行说明的,而在另一实施例中,在第二设备接收到第一设备发送的多个加密标识集后,按照上述方式,分别获取每个加密标识集对应的至少一个分割序号,即得到了每个第二维度对应的至少一个分割序号,并向第一设备发送每个加密标识集对应的至少一个分割序号。
可选地,在第二设备获取到每个加密标识集对应的至少一个分割序号后,向第一设备发送每个加密标识集的标识及对应的至少一个分割序号,以使后续第一设备能够根据每个加密标识集的标识来确定,每个加密标识集对应的至少一个分割序号。
411、第一设备接收该至少一个分割序号,根据该至少一个分割序号,对第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息,向第二设备发送多个第二分类信息。
其中,第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识,即每个第二指示信息对应一个分类得到的样本数据集,且每个第二指示信息包括对应的样本数据集中的第二样本数据所对应的加密指示标识。
在获取到至少一个分割序号后,根据该多个第三样本数据集中多个第二样本数据排列顺序及该至少一个分割序号,将第三样本数据集分割成多个样本数据集,并根据分割得到的多个样本数据集确定多个第二分类信息。
在一种可能实现方式中,第二分类信息中每个第二指示信息还包括对应的第一样本标识所对应的第一加密梯度和及第二加密梯度和。
其中,第一加密梯度和用于表示对应的第一样本标识的损失函数的一阶导数加密后得到的加密梯度之和,第二加密梯度和用于表示对应的第一样本标识的损失函数的二阶导数加密后得到的加密梯度之和,该损失函数即为当前训练的分类模型的损失函数。第一设备将该多个第三样本数据集分割成多个样本数据集后,为每个样本数据集确定一个对应的第二指示信息,对于任一第二指示信息,该第二指示信息对应的样本数据集所对应的第一样本标识对应的第一加密梯度之和,即为该第二指示信息中包括的第一加密梯度和,确定该第二指示信息中的第二加密梯度和的过程,与确定该第二指示信息中的第一加密梯度和的过程同理。
可选地,在步骤411之前,该方法还包括:第二设备获取每个第一样本标识对应的第一梯度及第二梯度,对每个第一梯度及第二梯度进行加密,得到每个第一梯度的第一加密梯度,及每个第二梯度的第二加密梯度,向第一设备发送每个第一样本标识对应的第一加密梯度和第二加密梯度,第一设备接收每个第一样本标识对应的第一加密梯度和第二加密梯度。
其中,第一梯度用于表示对应的第一样本标识的损失函数的一阶导数,第二梯度用于表示对应的第一样本标识的损失函数的二阶导数。对第一梯度及第二梯度进行加密的过程中,能够采用同态加密算法。例如,对于任意两个第一梯度,采用同态加密算法得到该两个第一梯度分别对应的第一加密梯度,则对两个第一加密梯度之和进行解密后,得到的梯度之和与该两个第一梯度之和相等。
可选地,第二分类信息中包括多个第一样本标识对应的加密指示标识。在向第二设备发送第二分类信息后,第二设备通过该第二分类信息中包括的多个第一样本标识对应的加密指示标识,能够确定出当前节点所对应的第一样本标识中用于确定分类模型的分类条件的样本标识,也即是真实样本标识。
在一种可能实现方式中,确定多个第二分类信息的过程包括:根据至少一个分割序号,将第三样本数据集分割成多个第四样本数据集,分别将每个第四样本数据集在任一第二维度的最小特征值确定为第二分割阈值,根据确定的多个第二分割阈值,分别对第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息。
其中,每个第四样本数据集对应的第一指示标识的数目相同。
在得到至少一个分割序号后,根据该第三样本数据集中多个第二样本数据排列顺序,及至少一个分割序号,将第三样本数据集划分成多个第四样本数据集,以保证每个第四样本数据集对应的第一指示标识的数目相同。之后,将每个第四样本数据集中的第二样本数据在该任一第二维度的最小特征值确定为第二分割阈值,即可得到该任一第二维度对应的多个第二分割阈值,按照每个第二分割阈值,对第四样本数据集进行分割,得到每个第二分割阈值对应的分割结果,该分割结果即为分割得到的样本数据集,根据多个分割结果,能够确定每个分割结果对应的第二分类信息,从而得到多个第二分类信息。
例如,多个分割序号为3、5、9,根据该多个分割序号对第三样本数据集进行分割时,将第三样本数据集中,前三个第二样本数据集作为一个第四样本数据集,将第四个第二样本数据和第五个第二样本数据作为一个第四样本数据集,将第六个至第九个第二样本数据作为一个第四样本数据集,将第十个第二样本数据及之后的第二样本数据作为一个第四样本数据集。
通过采用等频分箱的方式,对第三样本数据集进行分割,以保证分割得到的每个第四样本数据集包含的真实样本数据的数目相同,并根据等频分箱的结果确定的多个第二分割阈值,来分割第三样本数据集,以避免由于第二分割阈值的不准确,而无法分割第三样本数据集的情况,提高了第二分割阈值的准确性,并且,后续基于得到的第二分割阈值来确定第二分类信息,保证了第二分类信息的准确性。
需要说明的是,本申请实施例仅是任一第二维度的加密标识集为例,根据该加密标识集对应的至少一个分割序号,对第三样本数据集进行分割,来确定该任一第二维度对应的多个第二分割阈值,并根据该多个第二分割阈值,对第三样本数据集进行分割,得到该第二维度对应的多个第二分类信息的,而在另一实施例中,在得到每个第二维度对应的加密标识集所对应的至少一个分割序号后,按照上述方式,分别确定每个第二维度对应的多个第二分类信息。
412、第二设备接收第一设备发送的多个第二分类信息,将多个第一分类信息和多个第二分类信息中不满足目标条件的分类信息进行过滤。
其中,目标条件为分类信息中每个指示信息对应的第一指示标识的数目均不小于第一数目阈值,该第一数目阈值为任意的数值,如该第一数目阈值为5或6等。
通过设置的目标条件对多个第一分类信息和多个第二分类信息进行过滤,以筛除不满足目标条件的分类信息,以保证后续基于剩余的分类信息来生成的子节点的准确性。
由于每个第一分类信息中包括至少两个第一指示信息,每个第一指示信息包括与分类得到的每个样本数据集对应的第一样本标识和指示标识,在对多个第一分类信息进行过滤时,根据每个分类信息中的第一指示信息所包括的指示标识,即可确定每个第一指示信息中包含的第一指示标识的数目,从而能够将不满足目标条件的第一分类信息进行过滤。
由于第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识,则在对多个第二分类信息进行过滤时,需要确定每个第二分类信息中每个第二指示信息对应的第一指示标识的数目,以便后续根据每个第二指示信息对应的第一指示标识的数目,将不满足目标条件的第二分类信息进行过滤。
在一种可能实现方式中,确定第二指示信息对应的第一指示标识的数目的过程,包括:对任一第二分类信息包括的至少两个第二指示信息中所包含的加密指示标识进行解密,得到每个第二指示信息对应的指示标识,从得到的多个指示标识中,确定每个第二指示信息对应的第一指示标识的数目。
需要说明的是,本申请实施例是通过第一设备与第二设备的交互,第一设备通过第二设备确定的至少一个分割序号来获取第二分类信息的,而在另一实施例中,无需执行步骤409-411,第二设备直接接收第一设备发送的第二分类信息。
413、第二设备基于剩余的第一分类信息和第二分类信息确定目标分类信息。
其中,目标分类信息是用于为当前节点生成两个子节点的信息。在得到剩余的第一分类信息和第二分类信息后,从剩余的第一分类信息和第二分类信息中挑选目标分类信息,以便后续能够基于该目标分类信息为当前节点生成两个子节点。
在一种可能实现方式中,该步骤413包括以下步骤4131-4132。
4131、第二设备确定第一分类信息的增益值及第二分类信息的增益值。
其中,增益值用于表示对应的分类信息的准确率,分类信息的准确率越高,对应的增益值越大。在获取到剩余的第一分类信息及第二分类信息后,确定每个第一分类信息的增益值及每个第二分类信息的增益值。
在一种可能实现方式中,确定第一分类信息的增益值的过程包括:对于任一第一分类信息,根据该第一分类信息中的每个第一指示信息所包含的第一指示标识对应的第一梯度及第二梯度,确定每个第一指示信息的第三增益值,根据多个第一样本标识对应的第一梯度及第二梯度,确定该多个第一样本标识对应的当前节点的第四增益值,将得到的多个第三增益值之和,与第四增益值之间的差值,确定为第一分类信息的增益值。
在本申请实施例中,第一分类信息中的每个第一指示信息还包括第一样本标识对应的第一梯度及第二梯度。在训练分类模型的过程中,该分类模型中节点树的当前节点包括多个第一样本标识,第一分类信息用于表示将当前的多个第一样本数据分割成至少两个样本数据集合,也即是将当前的多个第一样本标识分割成至少两个样本标识集合,通过确定每个第一指示信息的第三增益值,及当前节点的第四增益值,来确定该第一分类信息的增益值,以表示当前节点按照该第一分类信息生成两个子节点所对应的准确率。
可选地,确定任一第一样本标识对应的第一梯度的过程包括:获取分类模型的损失函数的一阶导数,根据该损失函数的一阶导数,确定该第一样本标识对应的第一梯度。
可选地,确定任一第一样本标识对应的第二梯度的过程包括:获取分类模型的损失函数的二阶导数,根据该损失函数的二阶导数,确定该第一样本标识对应的第二梯度。
可选地,确定每个第一指示信息的第三增益值的过程包括:确定第一指示信息中包括的多个第一梯度之和,及该第一指示信息中包括的多个第二梯度之和,将多个第一梯度之和与该多个第二梯度之和之间的比值,确定为该第一指示信息的第三增益值。
可选地,在多个第一样本标识中,不用于确定分类模型中的分类条件的第一样本标识所对应的第一梯度及第二梯度均为0,则在确定每个第一指示信息的第三增益值的过程中,第一梯度之和仅包括了第一指示标识对应的第一样本标识所对应的第一梯度,第二梯度之和仅包括了第一指示标识对应的第一样本标识所对应的第二梯度,即不用于确定分类模型中的分类条件的第一样本标识所对应的梯度未影响第三增益值,也未影响分类信息的增益值,后续基于分类信息的增益值来确定目标分类信息,即不用于确定分类模型中的分类条件的第一样本标识未在确定分类信息的过程中起到作用,从而实现了在多个第一样本标识包括不用于确定分类模型中的分类条件的第一样本标识的前提下,避免了不用于确定分类模型中的分类条件的第一样本标识对训练分类模型的影响,保证后续训练分类模型的准确性。
另外,确定当前节点的第四增益值的过程,与上述确定第三增益值的过程同理,在此不再赘述。
在一种可能实现方式中,确定第二分类信息的增益值的过程,包括:对于任一第二分类信息,对第二分类信息中的每个第二指示信息包括的第一加密梯度和及第二加密梯度和进行解密,得到每个第二指示信息对应的第一梯度和及第二梯度和,根据每个第二指示信息对应的第一梯度和及第二梯度和,确定每个第二指示信息的第一增益值,根据多个第一样本标识对应的第一梯度及第二梯度,确定当前节点的第二增益值,将得到的多个第一增益值之和,与第二增益值之间的差值,确定为第二分类信息的增益值。
在本申请实施例中,第二分类信息包括多个,每个第二分类信息中的每个第二指示信息还包括对应的第一样本标识所对应的第一加密梯度和及第二加密梯度和。在确定第一增益值、第二增益值及第二分类信息的增益值的过程,与上述确定第三增益值、第四增益值及第一分类信息的增益值的过程同理,在此不再赘述。
4132、第二设备将第一分类信息及第二分类信息中的最大增益值对应的分类信息确定为目标分类信息。
在确定第一分类信息的增益值及第二分类信息的增益值后,从中选取最大增益值对应的分类信息作为目标分类信息,以便后续基于目标分类信息对节点树的当前节点进行分类。
414、第二设备基于目标分类信息生成当前节点的至少两个子节点。
在本申请实施例中,分类模型包括节点树,节点树包括多个节点及每个节点对应的分类条件,多个第一样本标识为与正在训练的当前节点对应的第一样本标识,多个第一样本数据为与正在训练的当前节点树中正在训练的当前节点对应的第一样本数据,多个第二样本数据为与正在训练的当前节点对应的第二样本数据。正在训练的当前节点为当前训练的节点树中任一节点,如节点树的根节点,或者,根节点的子节点等。
在确定目标分类信息后,通过该目标分类信息训练当前节点,在训练完成后得到该当前节点的至少两个子节点,每个子节点中包括至少一个第一样本标识,该至少两个子节点中包括的第一样本标识总和,即为该多个第一样本标识。
在一种可能实现方式中,该步骤414包括:第二设备响应于目标分类信息为第一分类信息,根据第一分类信息中的每个第一指示信息所包括的第一样本标识,生成当前节点的至少两个子节点,将目标分类信息对应的分类条件与当前节点关联。
其中,分类条件用于指示对多个第一样本标识进行分类得到该目标分类信息的条件。例如,该分类条件为“年龄是否小于20岁”,目标分类信息中的一个第一指示信息包括“年龄小于20岁”的多个第一样本标识,另一个第一指示标识包括“年龄不小于20岁”的多个第一样本标识。
在目标分类信息为第一分类信息时,第二设备根据该第一分类信息能够确定每个第一指示信息所包括的第一样本标识,则根据每个第一指示信息生成一个子节点,生成的子节点中包括对应的第一指示信息所包含的第一样本标识,并将目标分类信息对应的分类条件与该当前节点关联,以便后续再对与该当前节点匹配的用户数据进行分类时,根据该当前节点关联的分类条件确定与该用户数据匹配的子节点。
可选地,确定目标分类信息对应的分类条件的过程包括:根据该目标分类信息所对应的第一维度及第一分割阈值,生成该目标分类信息对应的分类条件。例如,该第一维度为年龄维度,第一分割阈值为20,则生成的分类条件为“年龄是否小于20岁”。
可选地,在生成当前节点的子节点后,根据该目标分类信息所对应的第一维度和第一分割阈值,及该目标分类信息中每个第一指示信息所对应的子节点标识,生成该目标分类信息对应的分类条件。
例如,目标分类信息包括两个第一指示信息,目标分类信息对应的第一维度为“年龄”,第一分割阈值为“20”,第一个第一指示信息包括年龄小于20的第一样本标识,且第一个第一指示信息对应于子节点1,第二个第一指示信息包括年龄不小于20的第一样本标识,且第二个第一指示信息对应于子节点2,则生成的分类条件为“年龄是否小于20岁;是,子节点1;否,子节点2”。
在一种可能实现方式中,该步骤414包括:第二设备响应于目标分类信息为第二分类信息,向第一设备发送样本标识获取请求,第一设备根据该样本标识获取请求确定目标分类信息中的每个第二指示信息所对应的第一样本标识,将目标分类信息对应的分类条件与当前节点的节点标识对应存储,并向第二设备发送该目标分类信息中的每个第二指示信息所对应的第一样本标识,第二设备接收第一设备发送的每个第二指示信息所对应的第一样本标识,根据每个第二指示信息所对应的第一样本标识,生成当前节点的至少两个子节点。
在本申请实施例中,由于第二分类信息中并未指示每个第二指示信息对应的第一样本标识,如果目标分类信息为第二分类信息,需要向第一设备请求该目标分类信息中的第二指示信息所对应的第一样本标识,以便后续第二设备根据该目标分类信息中的第二指示信息所对应的第一样本标识,训练当前节点,得到节点的至少两个子节点。并且,第一设备在接收到样本标识获取请求时,表示需要根据目标分类信息对应的分类条件来生成当前节点的至少两个子节点,则将该目标分类信息对应的分类条件与该当前节点的节点标识对应存储,以便后续第一设备根据分类条件与节点标识的对应关系,来确定节点树中的节点所对应的分类条件。
第二设备根据每个第二指示信息所对应的第一样本标识,生成当前节点的至少两个子节点的过程,与上述根据第一分类信息中的每个第一指示信息所包括的第一样本标识,生成当前节点的至少两个子节点的过程同理,在此不再赘述。
可选地,样本标识获取请求携带目标分类信息的信息标识及当前节点的节点标识,第一设备中存储有每个第二分类信息中的第二指示信息所对应的样本标识集合,及每个第二分类信息对应的分类条件。
第一设备通过该目标分类信息的信息标识,能够确定该信息标识对应的第二分类信息,根据每个第二分类信息中的第二指示信息所对应的样本标识集合,确定该目标分类信息中的第二指示信息所对应的样本标识集合,并且,根据第二分类信息与分类条件的对应关系,能够确定目标分类信息对应的分类条件,并将确定的分类条件与当前节点的节点标识对应存储。其中,第一设备生成第二分类信息对应的分类条件的过程,与上述第二设备生成第一分类信息对应的分类条件的过程同理,在此不再赘述。
需要说明的是,本申请实施例是先对分类信息进行过滤,之后基于剩余的第一分类信息和第二分类信息,生成当前节点的至少两个子节点,而在另一实施例中,无需执行步骤412-414,在第二设备接收第一设备发送的第二分类信息后,能够采取其他方式,基于第一分类信息和第二分类信息,训练当前节点树中的当前节点。
415、第二设备在训练完成当前节点得到至少两个子节点之后,将当前节点树中每个分支中深度最大的节点,确定为参考节点,响应于每个参考节点所包括的第一样本标识对应的第一指示标识的数目均小于第三数目阈值,确定当前节点树训练完成。
其中,第一指示标识用于指示对应的第一样本标识用于确定分类模型中的分类条件,所确定的多个参考节点中包括该至少两个子节点。第三数目阈值为任意的数值,如10或5等,该第三数目阈值用于指示节点树中的节点能够生成子节点的第一指示标识的数目阈值,即对于任一节点,如果节点所包括的第一样本标识对应的第一指示标识的数目小于第三数目阈值,表示该节点无法继续训练生成子节点;如果节点所包括的第一样本标识对应的第一指示标识的数目不小于第三数目阈值,表示该节点还能够继续训练生成子节点。
在本申请实施例中,分类模型包括的节点树包括多个节点,多个节点构成多个分支,如图6所示,节点树包括5个节点,节点601为根节点,5个节点构成了3个分支,第一个分支为节点601、节点602、节点604,第二个分支为节点601、节点602、节点605,第三个分支为节点601、节点603。在训练当前节点树的过程中,在训练完成当前节点后,确定每个分支中深度最大的节点,如图6所示,每个分支中深度最大的节点为节点604和节点605,如果节点604和节点605所包括的第一样本标识对应的第一指示标识的数目均小于第三数目阈值,表示每个参考节点均无法继续训练生成子节点,则确定当前节点树训练完成,得到该节点树,且训练完成的节点树在每个分支中深度最大的节点,即为该节点树的叶子节点。
在一种可能实现方式中,在确定多个参考节点之后,该方法还包括:响应于任一参考节点所包括的第一样本标识对应的第一指示标识的数目不小于第三数目阈值,将该参考节点作为当前节点,按照上述步骤405-406,及步骤409-414,对当前节点进行训练,直至每个分支中深度最大的节点所包括的第一样本标识对应的第一指示标识的数目均小于第三数目阈值,确定当前节点树训练完成。
例如,当前节点为节点树的根节点,该根节点包括多个第一样本标识,按照上述步骤405-406,及步骤409-414,生成该根节点的至少两个子节点,如果两个子节点所包括的第一样本标识对应的第一指示标识的数目均不小于第三数目阈值,按照上述步骤405-406,及步骤409-414,分别训练每个子节点,并在训练完成后为每个子节点生成节点树中下一层的子节点,之后根据下一层的子节点所包括的第一样本标识对应的第一指示标识的数目来确定当前节点树是否训练完成,如果下一层的任一子节点所包括的第一样本标识对应的第一指示标识的数目不小于第三数目阈值,将该子节点作为当前节点,按照上述步骤405-406,及步骤409-414,继续训练当前子节点,并在训练完成后生成当前子节点的至少两个子节点,重复上述过程,直至节点树中每个分支中深度最大的节点所包括的第一样本标识对应的第一指示标识的数目均小于第三数目阈值,即训练完成该节点树。
在一种可能实现方式中,在训练节点树的过程中,该方法还包括:第二设备响应于至少两个子节点中任一子节点为叶子节点,根据叶子节点中包括的第一样本标识所对应的第一梯度及第二梯度,确定叶子节点对应的概率值。
其中,第一梯度用于表示对应的第一样本标识的损失函数的一阶导数,第二梯度用于表示对应的第一样本标识的损失函数的二阶导数,概率值用于指示被划分至叶子节点的用户数据的分类结果。叶子节点为节点树中所包括的第一样本标识对应的第一指示标识的数目小于第三数目阈值的节点,在训练完成的节点树中,每个叶子节点为对应的分支中深度最大的节点。通过上述方式,确定节点树中每个叶子节点的概率值,即训练完成的节点树中每个叶子节点具有对应的概率值。
可选地,确定叶子节点对应的概率值的过程包括:对于任一叶子节点,确定该叶子节点中包括的第一样本标识所对应的第一梯度和,及第二梯度和,确定第二梯度与调整参数的和值,将第一梯度和与该和值的比值的负值,确定为该叶子节点的概率值。其中,调整参数为分类模型中的参数,该调整参数为常数。
416、第二设备在当前节点树训练完成的情况下,响应于已训练完成的节点树的数目小于第二数目阈值,继续训练下一个节点树,直至训练完成的节点树的数目达到第二数目阈值,得到训练完成的分类模型。
在本申请实施例中,分类模型包括多个节点树,第二数目阈值即为该分类模型包括的节点树的数目阈值,该第二数目阈值为任意的数值,如3或5等。在训练分类模型的过程中,依次训练每个节点树,在当前节点树训练完成的情况下,如果当前已训练完成的节点树的数目小于第二数目阈值,则继续训练下一个节点树,如果当前已训练完成的节点树的数目不小于第二数目阈值,则无需继续训练下一个节点树,即表示分类模型训练完成。
在一种可能实现方式中,该步骤416包括:响应于已训练完成的节点树的数目小于第二数目阈值,根据已训练完成的节点树中的叶子节点对应的概率值,确定每个第一样本标识对应的预测概率值,根据每个第一样本标识对应的预测概率值及对应的样本标签,获取每个第一样本标识的第三梯度及第四梯度,基于多个第一样本标识的第三梯度及第四梯度,继续训练下一个节点树。
其中,预测概率值用于指示对应的样本数据的分类结果,即根据已训练的节点树对第一样本标识的样本数据的预测分类结果,样本标签用于指示对应的第一样本标识的样本数据的真实分类结果。任一第一样本标识对应的第三梯度用于表示基于当前已训练的节点树对该第一样本标识进行分类所对应的损失函数的一阶导数,第四梯度用于表示基于当前已训练的节点树对该第一样本标识进行分类所对应的损失函数的二阶导数。
如果已训练完成的节点树的数目小于第二数目阈值,即需要继续训练下一个节点树,即根据当前已训练完成的节点树中每个叶子节点对应的概率值,来确定每个第一样本标识对应的预测概率值,根据每个第一样本标识对应的预测概率值及样本标签,来确定每个第一样本标识的第三梯度和第四梯度,后续按照上述步骤405-415,继续训练下一个节点树。
可选地,确定预测概率值的过程包括:对于任一第一样本标识,将已训练的每个节点树中包含该第一样本标识的叶子节点所对应的概率值之和,确定为该第一样本标识对应的预测概率值。
例如,当前已训练完成3个节点树,对于任一第一样本标识,该第一样本标识在第一个节点树中所属的叶子节点对应的概率值为0.2,在第二个节点树中所属的叶子节点对应的概率值为0.9,在第三个节点树中所属的叶子节点对应的概率值为0.1,则该第一样本标识对应的预测概率值为1.2。
需要说明的是,本申请实施例是先对分类信息进行过滤,之后基于剩余的第一分类信息和第二分类信息,训练分类模型中的多个节点树,而在另一实施例中,无需执行步骤412-416,在第二设备接收第一设备发送的第二分类信息后,能够采取其他方式,基于第一分类信息和第二分类信息训练分类模型。
417、第二设备将分类模型中的节点树所关联的第一分类条件删除,向第一设备发送删除后的分类模型。
其中,第一分类条件为与任一第一分类信息对应的分类条件。在本申请实施例中,训练分类模型中的节点树的过程中,节点树的任一节点是基于第一分类信息来生成子节点的,则该任一节点与该第一分类信息对应的第一分类条件关联,在训练分类模型之后,该分类模型中的节点树中可能存在节点与第一分类条件关联,则需要将该分类模型中的节点树所关联的第一分类条件删除,以避免第二设备中的第一分类条件泄露,从而避免了在第一分类条件泄露后,根据第一分类条件推测出第一样本标识对应的第一样本数据,导致第一样本数据泄露,之后将删除后的分类模型发送至第一设备,由第一设备进行存储。
在一种可能实现方式中,该步骤417包括:将分类模型中节点树所关联的第一分类条件及每个节点包括的第一样本标识删除,向第一设备发送删除后的分类模型。
通过删除分类模型中的节点树所关联的第一分类条件及每个节点包括的第一样本标识,使得删除后的分类模型中仅包括节点树的各个节点,以避免第二设备中的第一分类条件泄露,之后将删除后的分类模型发送至第一设备,由第一设备进行存储。
需要说明的是,本申请实施例是在分类模型训练完成后,才向第一设备发送删除后的分类模型的,而在另一实施例中,在训练分类模型的过程中,每训练完成一个节点树,将该节点树关联的第一分类条件删除,向第一设备发送删除后的节点树,以使第一设备存储该删除后的节点树。
418、第一设备接收第一设备发送删除后的分类模型,根据存储的节点标识与第二分类条件的对应关系,将已存储的第二分类条件与分类模型中的节点树中与第二分类条件对应的节点关联。
其中,第二分类条件为与任一第二分类信息对应的分类条件。在本申请实施例中,在训练分类模型的过程中,如果节点树中存在通过第二分类信息训练的节点,则第二设备将该节点的节点标识与对应的第二分类信息所对应的第二分类条件对应存储,即创建了节点标识与第二分类条件的对应关系,在训练完成分类模型后,接收第一设备发送删除后的分类模型,之后根据存储的对应关系,将已存储的第二分类条件与对应的节点关联,以便后续能够基于该分类模型中的节点树所关联的分类条件对用户数据进行分类。
419、第二设备调用分类模型,对目标用户数据进行分类,得到目标用户数据所属的类别。
其中,目标用户数据为任意的用户数据,该目标用户数据中可能包括第一维度的特征值,也可能包括第二维度的特征值。第二设备在获取到待分类的目标用户数据后,通过调用该分类模型,来确定目标用户数据所属的类别。
在一种可能实现方式中,该步骤419包括以下步骤4191-4193。
4191、第二设备基于目标用户数据,遍历分类模型中的节点树包含的节点及关联的分类条件。
在本申请实施例中,节点树包括多个节点,在基于目标用户数据遍历该节点树时,按照该节点树的深度由小到大的顺序,依次遍历节点树中包括的节点及关联的分类条件。
4192、第二设备响应于目标用户数据满足节点树中正在遍历的当前节点关联的分类条件,根据分类条件,确定当前节点的与目标用户数据匹配的下一层的子节点,直至确定与目标用户数据匹配的叶子节点。
例如,节点树包括3个节点,如根节点、叶子节点1和叶子节点2。基于该目标用户数据遍历节点树的根节点,根据该根节点关联的分类条件,如该分类条件为“年龄是否小于20;是,叶子节点1;否,叶子节点2”,如果目标用户数据指示的年龄小于20,则确定叶子节点1与该目标用户数据匹配,如果目标用户数据指示的年龄不小于20,则确定叶子节点2与该目标用户数据匹配。
在一种可能实现方式中,在遍历节点树中包括的节点的过程包括:响应于正在遍历的当前节点关联的分类条件是由第一设备存储的,向第一设备发送分类请求,第一设备接收该分类请求,根据该分类请求携带的节点标识对应的节点所关联的分类条件,确定与目标用户数据匹配的下一层的子节点,返回下一层的子节点的节点标识,第二设备接收第一设备发送的节点标识,根据节点标识继续确定与目标数据匹配的下一层的子节点。
其中,分类请求携带目标用户数据及当前节点的节点标识。在确定当前节点所关联的分类条件是由第一设备存储的情况下,通过向第一设备发送分类请求,由第一设备确定该目标用户数据匹配的下一层的子节点,并返回确定的子节点的节点标识,之后由该第二设备继续确定该节点标识对应的节点的下一层子节点中,与该目标用户数据匹配的子节点,按照上述方式,即可确定该节点树中与该目标用户数据匹配的叶子节点。
在本申请实施例中,对于分类模型中包括的任一节点树所关联的分类条件中,可能包括第一设备存储的第二分类条件,也可能包括第二设备存储的第一分类条件。并且,对于任一节点树,第二设备中存储有该节点树所关联的第一分类条件及对应的节点,并记录了该节点树中未关联第一分类条件的节点,之后第二设备基于记录的节点即可获知该节点所关联的分类条件是由第一设备存储的,第一设备中存储有该节点树关联的第二分类条件,并记录了该节点树中未关联第二分类条件的节点,之后第一设备基于记录的节点即可获知该节点所关联的分类条件是由第二设备存储的。
需要说明的是,本申请实施例仅是以分类模型包括一个节点树来说明的,而在另一实施例中,分类模型包括多个节点树,则按照上述步骤4191-4192,依次遍历每个节点树,确定目标用户数据在每个节点树中匹配的叶子节点。
4193、第二设备根据与目标用户数据匹配的叶子节点对应的概率值,确定为目标用户数据所属的类别。
在确定节点树中与目标用户数据匹配的叶子节点对应该概率值后,根据该目标用户数据对应的概率值,来确定目标用户数据所属的类别。
在一种可能实现方式中,该步骤4193包括:响应于与目标用户数据匹配的叶子节点对应的概率值不小于概率阈值,确定目标数据所属的类别为第一类别,响应于与目标用户数据匹配的叶子节点对应的概率值小于概率阈值,确定目标数据所属的类别为第二类别。其中,概率阈值为任意的数值,如0.8或0.6等。
在一种可能实现方式中,分类模型中包括多个节点树,则该步骤4193包括:确定该目标用户数据在每个节点树中匹配的叶子节点所对应的概率值之和,根据该概率值之和,确定为目标用户数据所属的类别。
本申请实施例提供的基于非对称联邦学习的模型联合训练方法,能够应用于多种场景下,如银行风控场景、财务风控场景、推荐系统场景等。在多个提供方互相不共享各自拥有的用户数据的前提下,联合多个提供方各自拥有的用户数据,来训练分类模型,既保证了用户数据的安全,又提高了分类模型的准确性。
本申请实施例提供的基于非对称联邦学习的模型联合训练方法,提供了一种基于XGboost(eXtreme Gradient Boosting,梯度提升树算法)的非对称联邦训练方法,在保证分类模型的准确率的情况下,保证了一个提供方中的样本标识的隐私性,使得另一个提供方无法获知用于确定分类模型中的分类条件的样本标识。
本申请实施例提供了一种联合训练分类模型的方式,在训练分类模型的过程中,其他提供方分享给当前提供方的分类信息中仅包括了样本数据对应的加密指示标识,使得当前提供方无法基于分类信息来推测出该其他提供方的样本数据,避免了信息泄露。并且在训练分类模型的样本标识中,掺杂了不用于确定分类模型中分类条件的样本标识,即掺杂了虚假样本标识,以使其他提供方无法获知多个样本标识中用于确定分类模型中的分类条件的样本标识,从而保证了训练样本标识的隐私,从而提高了安全性。
并且,在联合训练分类模型的过程中,采用等频分箱的方式,对每个提供方的样本数据集进行分割,以保证分割得到的样本数据集包含的真实样本数据的数目相同,并根据等频分箱的结果确定的多个分割阈值,来分割对应的样本数据集,以避免由于分割阈值的不准确而无法分割样本数据集的情况,提高了分割阈值的准确性,并且,后续基于得到的分割阈值来确定分类信息,保证了第一分类信息的准确性。
并且,在联合训练过程中,由当前的提供方根据另一个提供方提供的加密标识集,来为另一个提供方中的样本数据集确定分割序号,之后由另一个提供方根据分割序号来对存储的样本数据集进行等频分箱,实现了由当前的提供方为另一个提供方中的样本数据集进行等频分箱的效果,以避免用于确定分类模型的分类条件的样本标识泄露,保证了当前提供方的样本标识的安全性。
并且,在训练过程中,各个提供方各自存储拥有的分类条件,避免了基于分类条件来推测出该另一个提供方的样本数据,避免了信息泄露。
本申请实施例提供了一种隐私样本方式,在多个提供方进行样本标识对齐的过程中,多个提供方分别对各自拥有的样本标识进行加密,之后由任一提供方对加密后的加密数值进行比对,从而确定多个提供方共同拥有的样本标识,且避免了其他样本标识的泄露,保证了样本标识的安全性。
图7是本申请实施例提供的一种基于非对称联邦学习对分类模型联合训练的流程图,如图7所示,该流程包括以下步骤。
701、在数据准备阶段,第一设备获取本地存储的多个第三样本标识,第二设备获取本地存储的多个第二样本标识,第一设备与第二设备之间进行交互,采用隐私匹配的方式,确定多个第二样本标识及多个第三样本标识中的交集,也即是确定第一设备与第二设备共同拥有的第一样本标识。
702、在获取训练样本集阶段,第一设备获取多个第一样本标识对应的第二样本数据,第二设备获取多个第一样本标识对应的第一样本数据和指示标识。
703、在训练过程中,第一设备与第二设备通过各自拥有的训练样本集,采用非对称联邦学习的方法,训练分类模型。
704、在训练完成分类模型之后,基于训练后的分类模型对用户数据进行分类,以确定用户数据所属的类别。
图8是本申请实施例提供的一种基于非对称联邦学习对分类模型联合训练的流程图,如图8所示,该流程包括以下步骤。
801、第二设备获取多个第一样本标识对应的第一样本数据及指示标识,对多个第一样本标识对应的指示标识进行加密,向第一设备发送多个第一样本标识和对应的加密指示标识,根据多个第一样本数据在每个第一维度的特征值,对第一样本数据集进行等频分箱,得到每个第一维度对应的等频分箱结果。
该步骤与上述步骤405-408同理,在此不再赘述。
802、第一设备接收第一设备发送的多个第一样本标识和对应的加密指示标识,根据多个第二样本数据在每个第二维度的特征值,及多个第一样本标识和对应的加密指示标识,与第二设备进行交互,对多个第二样本数据进行等频分箱,得到每个第二维度对应的等频分箱结果。
该步骤与上述步骤409-411同理,在此不再赘述。
803、第二设备获取每个第一样本标识对应的第一梯度及第二梯度,向第一设备发送每个第一样本标识对应的第一梯度及第二梯度。
804、第一设备接收第二设备发送的每个第一样本标识对应的第一梯度及第二梯度。
805、第二设备向第一设备发送正在训练的节点树中当前深度的多个节点的节点标识,及每个节点所包括的第一样本标识。
806、第一设备接收该正在训练的节点树中当前深度的多个节点的节点标识,及每个节点所包括的第一样本标识。
807、对于当前深度的任一节点,第一设备根据每个第二维度对应的等频分箱结果,确定多个第二分类信息,向第二设备发送多个第二分类信息。
808、第二设备接收第一设备发送的多个第二分类信息,并根据每个第一维度对应的等频分箱结果,确定多个第一分类信息,确定每个第一分类信息的增益值,及每个第二分类信息的增益值,根据确定的增益值,从多个第一分类信息和多个第二分类信息中选取最大增益值对应的分类信息。如果最大增益值对应的分类信息为第一分类信息,则执行步骤809;如果最大增益值对应的分类信息为第二分类信息,则执行步骤810-812。
该步骤与上述步骤412-413同理,在此不再赘述。
809、如果最大增益值对应的分类信息为第一分类信息,第二设备根据该第一分类信息更新节点树,生成当前节点的子节点。
810、如果最大增益值对应的分类信息为第二分类信息,第二设备向第一设备发送样本标识获取请求,该样本标识获取请求携带该第二分类信息。
811、第一设备接收样本标识获取请求,根据该样本标识获取请求携带的第二分类信息,向第二设备发送该第二分类信息中的每个第二指示信息所对应的第一样本标识。
812、第二设备根据每个第二指示信息所对应的第一样本标识,更新节点树,生成当前节点的子节点。
813、在对当前深度的节点训练完成后,第二设备确定正在训练的节点树是否到达最大深度,如果正在训练的节点树到达最大深度,则训练该节点树完成,如果正在训练的节点树未到达最大深度,根据下一层的节点按照上述步骤805-812,继续训练该节点树。
814、在当前的节点树训练完成后,第二设备根据节点树中每个叶子节点所包括的第一样本标识对应的第一梯度及第二梯度,确定每个叶子节点的概率值,将该节点树所关联的第一分类信息删除,向第一设备发送删除后的节点树。
815、第一设备接收删除后的节点树,根据第二分类条件与节点标识的对应关系,将存储的第二分类条件与对应的节点关联。
816、如果已训练完成的节点树的数目不小于第二数目阈值,则训练分类模型的过程结束;如果已训练完成的节点树的数目小于第二数目阈值,第二设备根据已训练的节点树中每个叶子节点的概率值,更新每个第一样本标识对应的预测概率值,根据每个第一样本标识对应的预测概率值及对应的样本标签,获取每个第一样本标识的第三梯度及第四梯度,基于多个第一样本标识的第三梯度及第四梯度,继续训练下一个节点树。
图9是本申请实施例提供的一种基于非对称联邦学习的模型联合训练装置的结构示意图,如图9所示,该装置包括:
获取模块901,用于获取本地存储的多个第一样本数据及对应的第一样本标识和指示标识,指示标识用于指示对应的第一样本标识是否用于确定分类模型中的分类条件;
分类模块902,用于对多个第一样本数据进行分类,并确定第一分类信息,第一分类信息包括至少两个第一指示信息,每个第一指示信息包括与分类得到的每个样本数据集对应的第一样本标识和指示标识;
发送模块903,用于向第一设备发送获取到的多个第一样本标识和对应的加密指示标识,加密指示标识是对第一样本标识对应的指示标识加密得到的;
接收模块904,用于接收第一设备发送的第二分类信息,第二分类信息是由第一设备对多个第一样本标识对应的第二样本数据进行分类得到的,第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识;
训练模块905,用于基于第一分类信息和第二分类信息训练分类模型。
如图10所示,在一种可能实现方式中,第一样本数据包括多个第一维度的特征值;分类模块902,包括:
分类单元9021,用于按照每个第一样本数据在任一第一维度的特征值是否大于任一第一维度对应的第一分割阈值,对多个第一样本数据进行分类,并确定第一分类信息。
在另一种可能实现方式中,分类单元9021,用于根据多个第一样本数据在任一第一维度的特征值,对多个第一样本数据进行排序,得到任一第一维度对应的第一样本数据集;根据第一分割阈值,对第一样本数据集进行分割,并确定第一分类信息。
在另一种可能实现方式中,分类单元9021,用于根据多个第一样本标识对应的指示标识,将第一样本数据集分割为多个第二样本数据集,每个第二样本数据集对应的第一指示标识的数目相同,第一指示标识用于指示对应的第一样本标识用于确定分类模型中的分类条件;分别将每个第二样本数据集在任一第一维度的最小特征值确定为第一分割阈值;根据确定的多个第一分割阈值,分别对第一样本数据集进行分割,并确定多次分割结果对应的多个第一分类信息。
在另一种可能实现方式中,第二样本数据包括多个第二维度的特征值;装置还包括:
接收模块904,还用于接收第一设备发送的加密标识集,加密标识集包括多个加密指示标识,加密标识集是由第一设备根据第三样本数据集中的多个第二样本数据的排列顺序生成的,第三样本数据集是由第一设备根据多个第二样本数据在任一第二维度的特征值,对多个第二样本数据进行排序得到的;
解密模块906,用于对加密标识集中的加密指示标识进行解密,得到解密标识集;
确定模块907,用于根据解密标识集中的指示标识的排列顺序,确定至少一个分割序号;
发送模块903,还用于向第一设备发送至少一个分割序号,第一设备用于根据至少一个分割序号,将第三样本数据集分割成多个第四样本数据集,以使每个第四样本数据集对应的第一指示标识的数目相同,第一设备还用于分别将每个第四样本数据集在任一第二维度的最小特征值确定为第二分割阈值,根据确定的多个第二分割阈值,分别对第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息。
在另一种可能实现方式中,分类模块902,用于响应于多个第一样本标识对应的第一指示标识的数目不小于第三数目阈值,对多个第一样本数据进行分类,并确定第一分类信息,第一指示标识用于指示对应的第一样本标识用于确定分类模型中的分类条件。
在另一种可能实现方式中,训练模块905,用于将多个第一分类信息和多个第二分类信息中不满足目标条件的分类信息进行过滤;基于剩余的第一分类信息和第二分类信息训练分类模型;
其中,目标条件为分类信息中每个指示信息对应的第一指示标识的数目均不小于第一数目阈值。
在另一种可能实现方式中,装置还包括:
解密模块906,用于对任一第二分类信息包括的至少两个第二指示信息中所包含的加密指示标识进行解密,得到每个第二指示信息对应的指示标识;
确定模块907,用于从得到的多个指示标识中,确定每个第二指示信息对应的第一指示标识的数目。
在另一种可能实现方式中,分类模型中包括节点树,节点树包括多个节点及对应的分类条件,多个第一样本数据为与正在训练的当前节点对应的第一样本数据,当前节点为当前训练的节点树中任一节点;训练模块905,包括:
第一确定单元9051,用于基于第一分类信息和第二分类信息确定目标分类信息;
生成单元9052,用于基于目标分类信息生成当前节点的至少两个子节点,每个子节点中包括至少一个第一样本标识。
在另一种可能实现方式中,第一确定单元9051,用于确定第一分类信息的增益值及第二分类信息的增益值;将第一分类信息及第二分类信息中的最大增益值对应的分类信息确定为目标分类信息。
在另一种可能实现方式中,第二分类信息包括多个,每个第二分类信息中的每个第二指示信息还包括第一加密梯度和及第二加密梯度和,第一加密梯度和用于表示对应的第一样本标识的损失函数的一阶导数加密后得到的加密梯度之和,第二加密梯度和用于表示对应的第一样本标识的损失函数的二阶导数加密后得到的加密梯度之和;
第一确定单元9051,用于对于任一第二分类信息,对第二分类信息中的每个第二指示信息包括的第一加密梯度和及第二加密梯度和进行解密,得到每个第二指示信息对应的第一梯度和及第二梯度和;根据每个第二指示信息对应的第一梯度和及第二梯度和,确定每个第二指示信息的第一增益值;根据多个第一样本标识对应的第一梯度及第二梯度,确定当前节点的第二增益值;将得到的多个第一增益值之和,与第二增益值之间的差值,确定为第二分类信息的增益值。
在另一种可能实现方式中,生成单元9052,用于响应于目标分类信息为第一分类信息,根据第一分类信息中的每个第一指示信息所包括的第一样本标识,生成当前节点的至少两个子节点;将目标分类信息对应的分类条件与当前节点关联。
在另一种可能实现方式中,生成单元9052,用于响应于目标分类信息为第二分类信息,向第一设备发送样本标识获取请求,样本标识获取请求用于请求第一设备返回目标分类信息中的每个第二指示信息所对应的第一样本标识,第一设备还用于将目标分类信息对应的分类条件与当前节点的节点标识对应存储;接收第一设备发送的每个第二指示信息所对应的第一样本标识;根据每个第二指示信息所对应的第一样本标识,生成当前节点的至少两个子节点。
在另一种可能实现方式中,装置还包括:
确定模块907,用于响应于至少两个子节点中任一子节点为叶子节点,根据叶子节点中包括的第一样本标识所对应的第一梯度及第二梯度,确定叶子节点对应的概率值,第一梯度用于表示对应的第一样本标识的损失函数的一阶导数,第二梯度用于表示对应的第一样本标识的损失函数的二阶导数,概率值用于指示被划分至叶子节点的用户数据的分类结果。
在另一种可能实现方式中,分类模型包括多个节点树;每个节点树包括多个节点及对应的分类条件,多个第一样本数据为正在训练的当前节点树中当前节点对应的第一样本数据,当前节点为当前训练的节点树中任一节点;
训练模块905,包括:
训练单元9053,用于基于第一分类信息和第二分类信息,训练当前节点树中的当前节点;
训练单元9053,还用于在当前节点树训练完成的情况下,响应于已训练完成的节点树的数目小于第二数目阈值,继续训练下一个节点树,直至训练完成的节点树的数目达到第二数目阈值,得到训练完成的分类模型。
在另一种可能实现方式中,装置还包括:
确定模块907,用于在训练完成当前节点得到至少两个子节点之后,将当前节点树中每个分支中深度最大的节点,确定为参考节点,所确定的多个参考节点中包括至少两个子节点;
确定模块907,还用于响应于每个参考节点所包括的第一样本标识对应的第一指示标识的数目均小于第三数目阈值,确定当前节点树训练完成,第一指示标识用于指示对应的第一样本标识用于确定分类模型中的分类条件。
在另一种可能实现方式中,训练单元9053,用于响应于已训练完成的节点树的数目小于第二数目阈值,根据已训练完成的节点树中的叶子节点对应的概率值,确定每个第一样本标识对应的预测概率值,预测概率值用于指示对应的样本数据的分类结果;根据每个第一样本标识对应的预测概率值及对应的样本标签,获取每个第一样本标识的第三梯度及第四梯度;基于多个第一样本标识的第三梯度及第四梯度,继续训练下一个节点树。
在另一种可能实现方式中,装置还包括:
删除模块908,用于将分类模型中的节点树所关联的第一分类条件删除,第一分类条件为与任一第一分类信息对应的分类条件;
发送模块903,还用于向第一设备发送删除后的分类模型,第一设备用于根据存储的节点标识与第二分类条件的对应关系,将已存储的第二分类条件与分类模型中的节点树中与第二分类条件对应的节点关联,第二分类条件为与任一第二分类信息对应的分类条件。
在另一种可能实现方式中,装置还包括:
分类模块902,用于调用分类模型,对目标用户数据进行分类,得到目标用户数据所属的类别。
在另一种可能实现方式中,分类模块902,用于基于目标用户数据,遍历分类模型中的节点树包含的节点及关联的分类条件;响应于目标用户数据满足节点树中正在遍历的当前节点关联的分类条件,根据分类条件,确定当前节点的与目标用户数据匹配的下一层的子节点,直至确定与目标用户数据匹配的叶子节点;根据与目标用户数据匹配的叶子节点对应的概率值,确定为目标用户数据所属的类别。
在另一种可能实现方式中,装置还包括:
发送模块903,还用于响应于当前节点关联的分类条件是由第一设备存储的,向第一设备发送分类请求,分类请求携带目标用户数据及当前节点的节点标识,由第一设备根据节点标识对应的节点所关联的分类条件,确定与目标用户数据匹配的下一层的子节点,返回下一层的子节点的节点标识;
接收模块904,还用于接收第一设备发送的节点标识,根据节点标识继续确定与目标数据匹配的下一层的子节点。
在另一种可能实现方式中,获取模块901,包括:
获取单元9011,用于获取本地存储的多个第二样本标识,多个第二样本标识中包括用于确定分类模型中的分类条件的样本标识,及不用于确定分类模型中的分类条件;
加密单元9012,用于对每个第二样本标识进行加密处理,得到每个第二样本标识的第一加密数值;
接收单元9013,用于接收第一设备发送的多个第二加密数值,第二加密数值是由第一设备对本地存储的第三样本标识进行加密处理后得到的;
对比单元9014,用于对得到的多个第一加密数值及多个第二加密数值进行对比;
第二确定单元9015,用于响应于任一第一加密数值与任一第二加密数值相同,将第一加密数值对应的第二样本标识确定为第一样本标识。
在另一种可能实现方式中,加密单元9012,用于对每个第二样本标识进行变换,得到每个第二样本标识的变换值;根据公钥对每个第二样本标识对应的随机数进行加密,并将加密后的数值与对应的变换值的乘积,确定为每个第二样本标识的第三加密数值;向第一设备发送得到的多个第三加密数值,第一设备根据公钥对应的私钥对多个第三加密数值进行解密,得到多个第四加密数值,返回多个第四加密数值;接收第一设备发送的多个第四加密数值;确定多个第四加密数值与对应的随机数的比值;对每个第四加密数值对应的比值进行变换,得到每个第二样本标识的第一加密数值。
需要说明的是:上述实施例提供的基于非对称联邦学习的模型联合训练装置,仅以上述各功能模块的划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成,即将第二设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于非对称联邦学习的模型联合训练装置与基于非对称联邦学习的模型联合训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图11是本申请实施例提供的一种基于非对称联邦学习的模型联合训练装置的结构示意图,如图11所示,该装置包括:
排序模块1101,用于根据多个第二样本数据在任一第二维度的特征值,对多个第一样本数据进行排序,得到任一第一维度对应的第三样本数据集,第二样本数据包括多个第二维度的特征值;
生成模块1102,用于根据第三样本数据集中的多个第二样本数据的排列顺序,生成加密标识集,加密标识集包括多个第二样本数据对应的多个加密指示标识,每个第二样本数据对应的加密指示标识是由第二设备发送的;
发送模块1103,用于向第二设备发送加密标识集,第二设备用于对加密标识集中的加密指示标识进行解密,得到解密标识集,根据解密标识集中的指示标识的排列顺序,确定至少一个分割序号,返回至少一个分割序号;
确定模块1104,用于根据第二设备发送的至少一个分割序号,对第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息,第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识;
发送模块1103,还用于向第二设备发送多个第二分类信息,第二设备基于多个第二分类信息训练分类模型。
如图12所示,在一种可能实现方式中,确定模块1104,用于根据至少一个分割序号,将第三样本数据集分割成多个第四样本数据集,每个第四样本数据集对应的第一指示标识的数目相同;将每个第四样本数据集在任一第二维度的最小特征值确定为第二分割阈值;根据确定的多个第二分割阈值,分别对第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息。
在另一种可能实现方式中,装置还包括:
接收模块1105,用于接收第二设备发送的多个第一样本标识和对应的加密指示标识,每个第二样本数据与一个第一样本标识对应。
需要说明的是:上述实施例提供的基于非对称联邦学习的模型联合训练装置,仅以上述各功能模块的划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成,即将第一设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于非对称联邦学习的模型联合训练装置与基于非对称联邦学习的模型联合训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的基于非对称联邦学习的模型联合训练方法中所执行的操作。
可选地,计算机设备提供为终端。图13示出了本申请一个示例性实施例提供的终端1300的结构框图。该终端1300可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
终端1300包括有:处理器1301和存储器1302。
处理器1301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。存储器1302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1302中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1301所执行以实现本申请中方法实施例提供的基于非对称联邦学习的模型联合训练方法。
在一些实施例中,终端1300还可选包括有:外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地,外围设备包括:射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。
外围设备接口1303可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中,处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上;在一些其他实施例中,处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。
显示屏1305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。该显示屏1305是触摸显示屏,还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。
摄像头组件1306用于采集图像或视频。可选地,摄像头组件1306包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。
音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1301进行处理,或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。
定位组件1308用于定位终端1300的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1308可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1309用于为终端1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图13中示出的结构并不构成对终端1300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
可选地,计算机设备提供为服务器。图14是本申请实施例提供的一种服务器的结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1401和一个或一个以上的存储器1402,其中,存储器1402中存储有至少一条计算机程序,至少一条计算机程序由处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的基于非对称联邦学习的模型联合训练方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备实现如上述实施例的基于非对称联邦学习的模型联合训练方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种基于非对称联邦学习的模型联合训练方法,其特征在于,所述方法包括:
获取本地存储的多个第一样本数据及对应的第一样本标识和指示标识,所述指示标识用于指示对应的第一样本标识是否用于确定分类模型中的分类条件;
对所述多个第一样本数据进行分类,并确定第一分类信息,所述第一分类信息包括至少两个第一指示信息,每个第一指示信息包括与分类得到的每个样本数据集对应的第一样本标识和指示标识;
向第一设备发送获取到的多个第一样本标识和对应的加密指示标识,所述加密指示标识是对所述第一样本标识对应的指示标识加密得到的;
接收所述第一设备发送的加密标识集,所述加密标识集包括多个加密指示标识;
对所述加密标识集中的加密指示标识进行解密,得到解密标识集;
根据所述解密标识集中的指示标识的排列顺序,确定至少一个分割序号;
向所述第一设备发送所述至少一个分割序号,所述第一设备用于根据所述至少一个分割序号,对第三样本数据集进行分割,以对所述第三样本数据集中的所述多个第一样本标识对应的第二样本数据进行分类,得到第二分类信息,所述第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识;
接收所述第一设备发送的所述第二分类信息;
基于所述第一分类信息和所述第二分类信息训练所述分类模型。
2.根据权利要求1所述的方法,其特征在于,所述第一样本数据包括多个第一维度的特征值;所述对所述多个第一样本数据进行分类,并确定第一分类信息,包括:
按照每个第一样本数据在任一第一维度的特征值是否大于所述任一第一维度对应的第一分割阈值,对所述多个第一样本数据进行分类,并确定所述第一分类信息。
3.根据权利要求2所述的方法,其特征在于,所述按照每个第一样本数据在任一第一维度的特征值是否大于所述任一第一维度对应的第一分割阈值,对所述多个第一样本数据进行分类,并确定所述第一分类信息,包括:
根据所述多个第一样本数据在所述任一第一维度的特征值,对所述多个第一样本数据进行排序,得到所述任一第一维度对应的第一样本数据集;
根据所述第一分割阈值,对所述第一样本数据集进行分割,并确定所述第一分类信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一分割阈值,对所述第一样本数据集进行分割,并确定所述第一分类信息,包括:
根据所述多个第一样本标识对应的指示标识,将所述第一样本数据集分割为多个第二样本数据集,每个第二样本数据集对应的第一指示标识的数目相同,所述第一指示标识用于指示对应的第一样本标识用于确定所述分类模型中的分类条件;
分别将每个第二样本数据集在所述任一第一维度的最小特征值确定为第一分割阈值;
根据确定的多个第一分割阈值,分别对所述第一样本数据集进行分割,并确定多次分割结果对应的多个第一分类信息。
5.根据权利要求4所述的方法,其特征在于,所述第二样本数据包括多个第二维度的特征值;所述加密标识集是由所述第一设备根据所述第三样本数据集中的多个第二样本数据的排列顺序生成的,所述第三样本数据集是由所述第一设备根据所述多个第二样本数据在任一第二维度的特征值,对所述多个第二样本数据进行排序得到的;
所述第一设备用于根据所述至少一个分割序号,将所述第三样本数据集分割成多个第四样本数据集,以使每个第四样本数据集对应的第一指示标识的数目相同,所述第一设备还用于分别将所述每个第四样本数据集在所述任一第二维度的最小特征值确定为第二分割阈值,根据确定的多个第二分割阈值,分别对所述第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一分类信息和所述第二分类信息训练所述分类模型,包括:
将多个所述第一分类信息和多个所述第二分类信息中不满足目标条件的分类信息进行过滤;
基于剩余的所述第一分类信息和所述第二分类信息训练所述分类模型;
其中,所述目标条件为分类信息中每个指示信息对应的第一指示标识的数目均不小于第一数目阈值。
7.根据权利要求6所述的方法,其特征在于,所述将多个所述第一分类信息和多个所述第二分类信息中不满足目标条件的分类信息进行过滤之前,所述方法还包括:
对任一第二分类信息包括的至少两个第二指示信息中所包含的加密指示标识进行解密,得到每个第二指示信息对应的指示标识;
从得到的多个指示标识中,确定所述每个第二指示信息对应的第一指示标识的数目。
8.根据权利要求1所述的方法,其特征在于,所述分类模型中包括节点树,所述节点树包括多个节点及对应的分类条件,所述多个第一样本数据为与正在训练的当前节点对应的第一样本数据,所述当前节点为当前训练的节点树中任一节点;所述基于所述第一分类信息和所述第二分类信息训练所述分类模型,包括:
基于所述第一分类信息和所述第二分类信息确定目标分类信息;
基于所述目标分类信息生成所述当前节点的至少两个子节点,每个子节点中包括至少一个第一样本标识。
9.根据权利要求8所述的方法,其特征在于,所述基于所述目标分类信息生成所述当前节点的至少两个子节点,包括:
响应于所述目标分类信息为所述第二分类信息,向所述第一设备发送样本标识获取请求,所述样本标识获取请求用于请求所述第一设备返回目标分类信息中的每个第二指示信息所对应的第一样本标识,所述第一设备还用于将所述目标分类信息对应的分类条件与所述当前节点的节点标识对应存储;
接收所述第一设备发送的所述每个第二指示信息所对应的第一样本标识;
根据所述每个第二指示信息所对应的第一样本标识,生成所述当前节点的至少两个子节点。
10.根据权利要求1所述的方法,其特征在于,所述分类模型包括多个节点树;每个节点树包括多个节点及对应的分类条件,所述多个第一样本数据为正在训练的当前节点树中当前节点对应的第一样本数据,所述当前节点为所述当前训练的节点树中任一节点;
所述基于所述第一分类信息和所述第二分类信息训练所述分类模型,包括:
基于所述第一分类信息和所述第二分类信息,训练所述当前节点树中的所述当前节点;
在所述当前节点树训练完成的情况下,响应于已训练完成的节点树的数目小于第二数目阈值,继续训练下一个节点树,直至训练完成的节点树的数目达到所述第二数目阈值,得到训练完成的所述分类模型。
11.一种基于非对称联邦学习的模型联合训练方法,其特征在于,所述方法包括:
根据多个第二样本数据在任一第二维度的特征值,对所述多个第二样本数据进行排序,得到所述任一第二维度对应的第三样本数据集,所述第二样本数据包括多个第二维度的特征值;
根据所述第三样本数据集中的所述多个第二样本数据的排列顺序,生成加密标识集,所述加密标识集包括所述多个第二样本数据对应的多个加密指示标识,每个第二样本数据对应的加密指示标识是由第二设备发送的;
向所述第二设备发送所述加密标识集,所述第二设备用于对所述加密标识集中的加密指示标识进行解密,得到解密标识集,根据所述解密标识集中的指示标识的排列顺序,确定至少一个分割序号,返回所述至少一个分割序号;
根据所述第二设备发送的所述至少一个分割序号,对所述第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息,所述第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识;
向所述第二设备发送所述多个第二分类信息,所述第二设备基于所述多个第二分类信息训练分类模型。
12.一种基于非对称联邦学习的模型联合训练装置,其特征在于,所述装置包括:
获取模块,用于获取本地存储的多个第一样本数据及对应的第一样本标识和指示标识,所述指示标识用于指示对应的第一样本标识是否用于确定分类模型中的分类条件;
分类模块,用于对所述多个第一样本数据进行分类,并确定第一分类信息,所述第一分类信息包括至少两个第一指示信息,每个第一指示信息包括与分类得到的每个样本数据集对应的第一样本标识和指示标识;
发送模块,用于向第一设备发送获取到的多个第一样本标识和对应的加密指示标识,所述加密指示标识是对所述第一样本标识对应的指示标识加密得到的;
接收模块,用于接收所述第一设备发送的加密标识集,所述加密标识集包括多个加密指示标识;
解密模块,用于对所述加密标识集中的加密指示标识进行解密,得到解密标识集;
确定模块,用于根据所述解密标识集中的指示标识的排列顺序,确定至少一个分割序号;
所述发送模块,还用于向所述第一设备发送所述至少一个分割序号,所述第一设备用于根据所述至少一个分割序号,对第三样本数据集进行分割,以对所述第三样本数据集中的所述多个第一样本标识对应的第二样本数据进行分类,得到第二分类信息,所述第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识;
所述接收模块,还用于接收所述第一设备发送的所述第二分类信息;
训练模块,用于基于所述第一分类信息和所述第二分类信息训练所述分类模型。
13.一种基于非对称联邦学习的模型联合训练装置,其特征在于,所述装置包括:
排序模块,用于根据多个第二样本数据在任一第二维度的特征值,对所述多个第二样本数据进行排序,得到所述任一第二维度对应的第三样本数据集,所述第二样本数据包括多个第二维度的特征值;
生成模块,用于根据所述第三样本数据集中的所述多个第二样本数据的排列顺序,生成加密标识集,所述加密标识集包括所述多个第二样本数据对应的多个加密指示标识,每个第二样本数据对应的加密指示标识是由第二设备发送的;
发送模块,用于向所述第二设备发送所述加密标识集,所述第二设备用于对所述加密标识集中的加密指示标识进行解密,得到解密标识集,根据所述解密标识集中的指示标识的排列顺序,确定至少一个分割序号,返回所述至少一个分割序号;
确定模块,用于根据所述第二设备发送的所述至少一个分割序号,对所述第三样本数据集进行分割,并确定多次分割结果对应的多个第二分类信息,所述第二分类信息包括至少两个第二指示信息,每个第二指示信息包括与分类得到的每个样本数据集对应的加密指示标识;
所述发送模块,还用于向所述第二设备发送所述多个第二分类信息,所述第二设备基于所述多个第二分类信息训练分类模型。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至10任一权利要求所述的基于非对称联邦学习的模型联合训练方法中所执行的操作;或者,以实现如权利要求11所述的基于非对称联邦学习的模型联合训练方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至10任一权利要求所述的基于非对称联邦学习的模型联合训练方法中所执行的操作;或者,以实现如权利要求11所述的基于非对称联邦学习的模型联合训练方法中所执行的操作。
CN202110427675.4A 2021-04-21 2021-04-21 基于非对称联邦学习的模型联合训练方法、装置及设备 Active CN112990484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110427675.4A CN112990484B (zh) 2021-04-21 2021-04-21 基于非对称联邦学习的模型联合训练方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427675.4A CN112990484B (zh) 2021-04-21 2021-04-21 基于非对称联邦学习的模型联合训练方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112990484A CN112990484A (zh) 2021-06-18
CN112990484B true CN112990484B (zh) 2021-07-20

Family

ID=76341442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427675.4A Active CN112990484B (zh) 2021-04-21 2021-04-21 基于非对称联邦学习的模型联合训练方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112990484B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434906B (zh) * 2021-07-05 2024-01-16 平安科技(深圳)有限公司 数据查询方法、装置、计算机设备及存储介质
CN113537333B (zh) * 2021-07-09 2022-05-24 深圳市洞见智慧科技有限公司 一种优化树模型训练的方法及纵向联邦学习系统
CN113887741B (zh) * 2021-11-05 2022-09-30 深圳市电子商务安全证书管理有限公司 基于联邦学习的数据生成方法、装置、设备及存储介质
US20240265268A1 (en) * 2023-02-08 2024-08-08 World Wide Technology Holding Co., LLC Federated learning with single-round convergence

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200218937A1 (en) * 2019-01-03 2020-07-09 International Business Machines Corporation Generative adversarial network employed for decentralized and confidential ai training
CN111598186A (zh) * 2020-06-05 2020-08-28 腾讯科技(深圳)有限公司 基于纵向联邦学习的决策模型训练方法、预测方法及装置
CN112256874A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 模型训练方法、文本分类方法、装置、计算机设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200218937A1 (en) * 2019-01-03 2020-07-09 International Business Machines Corporation Generative adversarial network employed for decentralized and confidential ai training
CN111598186A (zh) * 2020-06-05 2020-08-28 腾讯科技(深圳)有限公司 基于纵向联邦学习的决策模型训练方法、预测方法及装置
CN112256874A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 模型训练方法、文本分类方法、装置、计算机设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
支持数据隐私保护的联邦深度神经网络模型研究;张泽辉 等;《自动化学报》;20200820;第1-6节 *

Also Published As

Publication number Publication date
CN112990484A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112990484B (zh) 基于非对称联邦学习的模型联合训练方法、装置及设备
CN112257876B (zh) 联邦学习方法、装置、计算机设备及介质
CN111476783B (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN113177645A (zh) 联邦学习方法、装置、计算设备及存储介质
US20140133757A1 (en) Creating social network groups
CN112989767B (zh) 医学词语标注方法、医学词语映射方法、装置及设备
CN113449048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
CN109977839A (zh) 信息处理方法和装置
CN106303599A (zh) 一种信息处理方法、系统及服务器
CN110046297A (zh) 运维违规操作的识别方法、装置和存储介质
CN113362048A (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
CN115239860B (zh) 表情数据生成方法、装置、电子设备及存储介质
CN113822263A (zh) 图像标注方法、装置、计算机设备及存储介质
CN114283299A (zh) 图像聚类方法、装置、计算机设备及存储介质
CN109583228A (zh) 一种隐私信息管理方法、装置和系统
CN114282035A (zh) 图像检索模型的训练和检索方法、装置、设备及介质
CN116775915A (zh) 资源推荐方法、推荐预测模型训练方法、装置及设备
CN112561084B (zh) 特征提取方法、装置、计算机设备及存储介质
CN111899747B (zh) 用于合成音频的方法和装置
CN114281936A (zh) 分类方法、装置、计算机设备及存储介质
CN112925899A (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
CN111598923B (zh) 目标跟踪方法、装置、计算机设备及存储介质
CN116522385A (zh) 一种联邦过采样方法、装置、电子设备及存储介质
CN112232890B (zh) 数据处理方法、装置、设备及存储介质
CN113762042A (zh) 视频识别方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40046039

Country of ref document: HK