CN113159152A - 基于树形结构的多标签联邦学习方法、控制器和介质 - Google Patents
基于树形结构的多标签联邦学习方法、控制器和介质 Download PDFInfo
- Publication number
- CN113159152A CN113159152A CN202110392743.8A CN202110392743A CN113159152A CN 113159152 A CN113159152 A CN 113159152A CN 202110392743 A CN202110392743 A CN 202110392743A CN 113159152 A CN113159152 A CN 113159152A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- tag
- label
- holder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于树形结构的多标签联邦学习方法、控制器和介质,所述方法包括步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集;步骤S2、基于所述n个数据持有方的用户标签生成标签依赖关系树;步骤S3、以{X1,X2,...,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);步骤S4、待测用户的特征为{x1,x2,...,xn},基于{x1,x2,...,xn}、标签依赖关系树和Mt(j)生成所述待测用户所有标签{yt(1),yt(2),...,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。本发明基于多标签之间的相互关系进行联邦学习,提高了模型精度和模型训练速度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于树形结构的多标签联邦学习方法、控制器和介质。
背景技术
纵向联邦学习指的是多个数据持有方的数据集中的用户重叠较多而用户特征重叠较少的情况下的联邦学习。纵向联邦学习的任务就是在保持数据本地化的情况下,共同训练出一个机器学习模型。多标签学习解决的是一个样本对应多个标签的机器学习的技术问题,例如:一张图片中可能即包含狗,也包含猫。相对的,传统的单标签学习解决的则是一个样本仅对应一个标签的机器学习的技术问题,例如:判断一张图片是猫的照片还是狗的照片。
传统的基于单标签的纵向联邦学习,已多有研究和应用。在多标签场景下,例如:在银行数据持有方与电商数据持有方的联邦学习场景中,电商数据持有方要预测用户是否会购买某件商品的标签,同时银行数据持有方要预测用户是否会如期还款的标签。按照现有技术的方案,可以将这个问题转化为两个独立的传统的单标签联邦学习问题:一个联邦学习模型用来预测用户是否会购买某件商品的标签;另一个联邦学习模型用来预测用户是否会如期还款的标签,两个模型互不相干。但是这样处理实际上忽略了两个标签的相互关系(如:“是否会如期还款”这个标签可能能够帮助判断“用户是否会购买某件商品”这个标签),导致模型精度较低。由此可知,如何在模型训练过程中挖掘出多标签之间的相关关系,基于多标签之间的相互关系进行联邦学习,提高模型精度成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种基于树形结构的多标签联邦学习方法、控制器和介质,基于多标签之间的相互关系进行联邦学习,提高了模型精度和模型训练速度。
根据本发明第一方面,提供了一种基于树形结构的多标签联邦学习方法,包括:
步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,…,n,yik∈R,k=1,2,…,ni;
步骤S2、基于所述n个数据持有方的用户标签生成标签依赖关系树,其中,t(j)表示第j号树节点对应的数据持有方序号,j=1,2,…n,设置用户获取第t(j)个用户标签在所述标签依赖关系树中所有下层依赖标签集合的函数G(Yt(j));
步骤S3、以{X1,X2,…,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);
步骤S4、待测用户的特征为{x1,x2,…,xn},xi表示待测用户在第i个用户持有方对应的待测用户特征数据,基于{x1,x2,…,xn}、标签依赖关系树和Mt(j)生成所述待测用户所有标签{yt(1),yt(2),…,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。
根据本发明第二方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明第一方面所述的方法。
根据本发明第三方面,提供一种计算机可读存储介质,所述计算机指令用于执行本发明第一方面所述的方法。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种基于树形结构的多标签联邦学习方法、控制器和介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明通过构建基于标签依赖树的联邦学习模型,将每一叶子节点所对应的标签数据加入到下一轮被其依赖的子模型对应的输入数据中,使得在模型训练过程中能够学习到多标签之间的相关关系,基于多标签之间的相互关系进行联邦学习,提高模型精度,且基于标签依赖树结构使得标签预测过程可以部分并行执行,提高了模型训练和模型计算的执行速度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的基于n个数据持有方的用户标签生成标签依赖关系树示意图;
图2为本发明实施例提供的基于n个数据持有方的用户标签生成标签有向无环图示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于树形结构的多标签联邦学习方法、控制器和介质的具体实施方式及其功效,详细说明如后。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一、
本实施例提供了一种基于树形结构的多标签联邦学习方法,包括:
步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,可以理解的是,每一数据持有方各自的训练数据集是存储在各自本地,模型训练过程中,每一数据持有方各自的训练数据集也始终存储在各自本地,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中, Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,…,n,yik∈R,k=1,2,…,ni;
其中,可以理解的是,n个数据持有方的样本用户是重叠的,指的是n个数据持有方的样本用户是相同的,且样本用户是横向对齐的。n个数据持有方的数据属性数量可能相同也可能不同,同一数据持有方的每一样本用户的数据属性数量是相同的。
步骤S2、基于所述n个数据持有方的用户标签生成标签依赖关系树,其中,t(j)表示第j号树节点对应的数据持有方序号,j=1,2,…n,设置用户获取第t(j)个用户标签在所述标签依赖关系树中所有下层依赖标签集合的函数G(Yt(j));
其中,可以随机初始化n个数据持有方的用户标签生成标签依赖关系树,也可根据每一用户标签的目标精确度来分组,目标精确度越高,标签分组越靠前。作为一种实施例,若t(1)=5,则表示第5个数据持有方的标签对应标签依赖关系树中的第5号树节点。如图1所示用户标签生成标签依赖关系树结构,G(Yt(2))={Yt(5),Yt(6),Yt(7),…}。可以理解的是,图1的标签依赖关系树仅为一种示例,根据应用场景,数据等不同,构建的标签依赖关系树也不相同。
步骤S3、以{X1,X2,…,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);
需要说明的是,联邦学习过程中,各个子模型Mt(j)是分散存储在各个数据持有方的,即,每个数据持有方只保有各个子模型Mt(j)的一部分,作为对应的本地预测子模型。以{X1,X2,…,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,具体指的是,在第j个子模型训练过程中,将标签依赖关系树中当前标签Yt(j)的所有依赖标签也当作特征数据加入到训练集中,即将G(Yt(j))中的用户标签数据加入该数据持有方对应的样本用户特征数据中,并作为Mt(j)在该数据持有方的本地预测子模型的输入数据,这样即可学习到标签之间的相互关系,且各个数据持有方的用户数据始终都存在自己的数据库中,子模型训练和使用过程中,各个数据持有方之间只传递模型更新参数。
步骤S4、待测用户的特征为{x1,x2,…,xn},xi表示待测用户在第i个用户持有方对应的待测用户特征数据,基于{x1,x2,…,xn}、标签依赖关系树和Mt(j)生成所述待测用户所有标签{yt(1),yt(2),…,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。
可以理解的是,待测用户的特征也是分散存储在多个数据持有方中的,即每一数据持有方持有一部分待测用户的特征数据。
联邦学习涉及多个客户端,每一客户端可能有一个或多个标签,也可能没有标签,只有用户数据,因此,可将客户端的用户数据进行预处理,再从预处理后的数据中获取n个数据持有方中每一数据持有方对应的训练数据集,作为一种实施例,所述步骤S1可包括:
步骤S11、获取Z个客户端中每一客户端的数据,采用预设的对齐算法和隐私求交算法获取每一客户端中Z个客户端重叠的数据,作为每一客户端对应的用户数据,所述用户数据包括用户特征数据和用户标签数据;
需要说明的是,步骤S11中可以直接采用现有的对齐算法和隐私求交算法获取每一客户端中Z个客户端重叠的数据,现有的对齐算法和隐私求交算法在此不再赘述。
步骤S12、获取第z客户端数据中用户标签的类别数量Wz,并判断Wz是否大于等于2,若是,则构建Wz个第z客户端对应的数据持有方,并以所述第z客户端对应的用户数据中的每一类用户标签数据作为一个数据持有方对应的用户标签数据集,以所述第z客户端对应的用户特征数据作为每一数据持有方对应的用户特征数据集,构建Wz个训练数据集,为每一数据持有方划分一个对应的训练数据集,否则,执行步骤S13,z=1,2,…Z;
步骤S13、构建一个第x客户端对应的数据持有方,并以第z客户端对应的用户标签数据作为用户标签数据集,以第z客户端对应的用户特征数据作为用户特征数据集,构建该数据持有方对应的训练数据集;
步骤S14、将基于所述Z个客户端数据生成的所有数据持有方的训练数据集,确定为所述n个数据持有方的训练数据集。
通过步骤S11-步骤S14即可使得n个数据持有方的训练数据集的每一数据持有方的训练数据集中的用户重叠对齐,且每一数据持有方对应一个用户标签。但可以理解的是,如果某一客户端只有用户特征数据集,没有对应的标签,也可将该客户端对应的用户特征数据集加入每轮训练的输入数据,参与训练。
作为一种实施例,步骤S2包括:
步骤S21、获取所述n个用户标签中每一用户标签的目标精确度,将n个用户标签划分为T组用户标签,其中,其中第一组用户标签包括一个目标精确度最高的用户标签,第二组用户标签至第T组用户标签中每组包括一个或多个用户标签,且第t-1组标签中目标精确度的最小值大于第t组标签中目标精确度的最大值,t=2,3,…T;
其中,每一用户的目标精确度可根据具体应用场景来确定。
步骤S22、将第一组用户标签中的用户标签设置为所述标签依赖关系树的根节点,将第t组标签中用户标签对应设置为第t层节点,每一用户标签对应一个节点,每一第t层节点随机或根据预设的标签依赖关系连接一个第t-1层节点,生成所述标签依赖关系树,如图1所示的示例。
可以理解的是,基于标签依赖关系树,可以使得预测过程部分并行,可以加快整个标签预测的执行过程,标签预测阶段的循环次数等于标签依赖关系树的高度,因此可根据所需执行速度来设置标签依赖关系树的高度。因此,可以根据具体应用需求,在标签依赖关系树的设计的模型精度与执行速度之间达到均衡,也增加了模型的灵活性。
步骤S31、基于所述G(Yt(j))和标签依赖关系树获取第t(j)个用户标签在所述标签依赖关系树中所有下层依赖标签集合,作为第t(j)依赖标签集合,判断所述第t(j)依赖标签集合是否为空,若是,执行步骤S32,否则,执行步骤S33;
这样即可将G(Yt(j))中的用户标签数据加入该数据持有方对应的样本用户特征数据中,并作为Mt(j)在该数据持有方的本地预测子模型的输入数据,这样即可学习到标签之间的相互关系。
当每一子模型输入数据和输出数据确认好后,可以选择预设的机器学习模型框架进行联邦学习,训练子模型,作为一种实施例,所述步骤S3中采用纵向神经网络的架构进行纵向联邦学习,生成Mt(j),第i数据持有方上的本地预测子模型为其中,u为第一神经网络模型深度,第t(j)数据持有方上的本地预测子模型还包括综合神经网络其中,h为第一神经网络模型深度,所述步骤S3具体包括:
步骤S315、循环执行步骤S311-步骤S314,直至预测子模型Mt(j)收敛。
需要说明的是,步骤S315可以直接采用现有的判断模型收敛的方法判断预测子模型Mt(j)是否收敛,在此不再展开描述。
作为一种实施例,所述步骤S4可包括:
步骤S41、并行执行所述标签依赖关系树中叶子节点所对应的预测子模型;
步骤S42、将每一叶子节点所对应的预测子模型的预测输出加入到下一轮被其依赖的子模型对应的输入数据中;
步骤S43、将已经预测出的对应预测标签的叶子节点从所述标签依赖关系树中剔除,并判断当前所述标签依赖关系树是否为空,若是,则结束流程,否则,返回步骤S41。
进一步的,所述步骤S4具体可包括:
步骤S411、获取原始标签依赖关系树中原始叶子节点对应的数据持有方序号集{t(s1),t(s2),...t(sc)...},其中,t(sc)表示第c个原始叶子节点对应的数据持有方序号,sc=1,2,...n,c=1,2..且c<n,将xi输入并行执行所有Mt(sc),生成yt(sc),并删除所述原始叶子节点;
步骤S412、获取当前标签依赖关系树中叶子节点对应的数据持有方序号集{t(p1),t(p2),...t(pc)...},其中,t(pc)表示第c个当前叶子节点对应的数据持有方序号,pc=1,2,...n,c=1,2..且c<n,获取原始标签依赖关系树中第t(pc)用户标签依赖节点对应的数据持有方序号集.{t(pc1),t(pc2),...t(pcd),...}以及{yt(pc1),yt(pc2),...yt (pcd),...},其中,t(pcd)表示第d个当前叶子节点对应的数据持有方序号,yt(pcd)表示Mt(pcd)的预测结果,pcd=1,2,...n,d=1,2..且d<n,则若i属于{t(pc1),t(pc2),...t(pcd),...},则xi=xi+yt(pcd),将xi输入并行执行所有Mt(pc),生成yt(pc),并删除所有当前叶子节点;
步骤S413、判断当前标签依赖关系树是否为空,若是,则结束流程,否则,返回步骤S412。
通过步骤S411-步骤S413,最终生成所述待测用户所有标签{yt(1),yt(2),…,yt(n)},可以根据具体应用需要获取{yt(1),yt(2),…,yt(n)}中的任意一个或多个值,作为目标数据。
本发明实施例一通过构建基于标签依赖树的联邦学习模型,将每一叶子节点所对应的标签数据加入到下一轮被其依赖的子模型对应的输入数据中,使得在模型训练过程中能够学习到多标签之间的相关关系,基于多标签之间的相互关系进行联邦学习,提高模型精度,且基于标签依赖树结构使得标签预测过程可以部分并行执行,提高了模型训练和模型计算的执行速度,标签预测阶段的循环次数等于标签依赖关系树的高度,因此可根据所需执行速度来设置标签依赖关系树的高度。因此,可以根据具体应用需求,在标签依赖关系树的设计的模型精度与执行速度之间达到均衡,也增加了模型的灵活性。
但可以理解的是,实施例一基于标签依赖树构建联邦学习模型,是适当牺牲了标签预测准确性为代价来换取标签预测速度的,以图1为例,当第t(7)数据方预测出对应标签值后,其标签会作为预测第t(2)数据方、第t(5)数据方、第t(1)数据方对应标签的输入数据特征。由于第t(7)数据方与第t(n)数据方是并行预测的,因此如果让第t(4)数据方也依赖第t(7)数据方不会影响第t(4)数据方的预测速度,且能提高整个模型的预测精度。因此,为了在提高速度的基础上,减少对模型准确度的影响,本发明进一步提出了实施例二。
实施例二、
本发明实施例还提供了一种基于多标签的联邦学习数据处理方法,包括:
步骤C1、获取n个数据持有方中每一数据持有方对应的训练数据集,可以理解的是,每一数据持有方各自的训练数据集是存储在各自本地,模型训练过程中,每一数据持有方各自的训练数据集也始终存储在各自本地,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中, Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,…,n,yik∈R,k=1,2,…,ni;
其中,可以理解的是,n个数据持有方的样本用户是重叠的,指的是n个数据持有方的样本用户是相同的,且样本用户是横向对齐的。n个数据持有方的数据属性数量可能相同也可能不同,同一数据持有方的每一样本用户的数据属性数量是相同的。
步骤C2、基于所述n个数据持有方的用户标签生成标签有向无环图,其中,t(j)表示所述标签有向无环图第j号节点对应的数据持有方序号,j=1,2,…n,设置用户获取第t(j)个用户标签在所述标签有向无环图中所有下层依赖标签集合的函数G(Yt(j));
其中,可以随机初始化n个数据持有方的用户标签生成标签有向无环图,也可根据每一用户标签的目标精确度来分组,目标精确度越高,标签分组越靠前。作为一种实施例,若t(1)=5,则表示第5个数据持有方的标签对应标签有向无环图中的第5号节点。如图2所示的标签有向无环图,G(Yt(3))={Yt(5),Yt(6),Yt(7),…Yt(n)}。需要说明的是,图2的标签有向无环图仅为一种示例,且并非是直接基于图1改进而来,与图1无直接关联,且根据应用场景,数据等不同,构建的标签有向无环图也不相同。
需要说明的是,联邦学习过程中,各个子模型Mt(j)是分散存储在各个数据持有方的,即,每个数据持有方只保有各个子模型Mt(j)的一部分,作为对应的本地预测子模型。以{X1,X2,…,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,具体指的是,在第j个子模型训练过程中,将标签有向无环图中当前标签Yt(j)的所有依赖标签也当作特征数据加入到训练集中,即将G(Yt(j))中的用户标签数据加入该数据持有方对应的样本用户特征数据中,并作为Mt(j)在该数据持有方的本地预测子模型的输入数据,这样即可学习到标签之间的相互关系,且各个数据持有方的用户数据始终都存在自己的数据库中,子模型训练和使用过程中,各个数据持有方之间只传递模型更新参数。
步骤C3、以{X1,X2,…,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);
步骤C4、待测用户的特征为{x1,x2,…,xn},xi表示待测用户在第i个用户持有方对应的待测用户特征数据,基于{x1,x2,…,xn}、标签有向无环图和Mt(j)生成所述待测用户所有标签{yt(1),yt(2),…,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。
可以理解的是,待测用户的特征也是分散存储在多个数据持有方中的,即每一数据持有方持有一部分待测用户的特征数据。
联邦学习涉及多个客户端,每一客户端可能有一个或多个标签,也可能没有标签,只有用户数据,因此,可将客户端的用户数据进行预处理,再从预处理后的数据中获取n个数据持有方中每一数据持有方对应的训练数据集,作为一种实施例,所述步骤C1可包括:
步骤C11、获取Z个客户端中每一客户端的数据,采用预设的对齐算法和隐私求交算法获取每一客户端中Z个客户端重叠的数据,作为每一客户端对应的用户数据,所述用户数据包括用户特征数据和用户标签数据;
需要说明的是,步骤C11中可以直接采用现有的对齐算法和隐私求交算法获取每一客户端中Z个客户端重叠的数据,现有的对齐算法和隐私求交算法在此不再赘述。
步骤C12、获取第z客户端数据中用户标签的类别数量Wz,并判断Wz是否大于等于2,若是,则构建Wz个第z客户端对应的数据持有方,并以所述第z客户端对应的用户数据中的每一类用户标签数据作为一个数据持有方对应的用户标签数据集,以所述第z客户端对应的用户特征数据作为每一数据持有方对应的用户特征数据集,构建Wz个训练数据集,为每一数据持有方划分一个对应的训练数据集,否则,执行步骤C13,z=1,2,…Z;
步骤C13、构建一个第x客户端对应的数据持有方,并以第z客户端对应的用户标签数据作为用户标签数据集,以第z客户端对应的用户特征数据作为用户特征数据集,构建该数据持有方对应的训练数据集;
步骤C14、将基于所述Z个客户端数据生成的所有数据持有方的训练数据集,确定为所述n个数据持有方的训练数据集。
通过步骤C11-步骤C14即可使得n个数据持有方的训练数据集的每一数据持有方的训练数据集中的用户重叠对齐,且每一数据持有方对应一个用户标签。但可以理解的是,如果某一客户端只有用户特征数据集,没有对应的标签,也可将该客户端对应的用户特征数据集加入每轮训练的输入数据,参与训练。
作为一种实施例,步骤C2包括:
步骤C21、获取所述n个用户标签中每一用户标签的目标精确度,将n个用户标签划分为T组用户标签,其中,每组用户标签包括一个或多个用户标签,且第t-1组标签中目标精确度的最小值大于第t组标签中目标精确度的最大值,t=2,3,…T;
其中,每一用户的目标精确度可根据具体应用场景来确定。
步骤C22、将第一组用户标签中的用户标签设置为所述标签有向无环图的无被依赖节点,将第t组标签中用户标签对应设置为第t层节点,每一用户标签对应一个节点,每一第t层节点随机连接一个或多个第t-1层节点,生成所述标签有向无环图,如图2所示的示例。
可以理解的是,基于标签有向无环图,可以使得预测过程部分并行,可以加快整个标签预测的执行过程,且一个标签可以同时被多个标签依赖,既不会影响模型预测速度,又能够提高模型预测精度。标签预测阶段的循环次数等于标签有向无环图的最长依赖路径,因此可根据所需执行速度来设置标签有向无环图的最长依赖路径和标签有向无环图结构,且根据具体应用需求,可以在标签有向无环图的结构设计的模型精度与执行速度之间达到均衡,也增加了模型的灵活性。
步骤SC1、基于所述G(Yt(j))和标签有向无环图获取第t(j)个用户标签在所述标签有向无环图中所有下层依赖标签集合,作为第t(j)依赖标签集合,判断所述第t(j)依赖标签集合是否为空,若是,执行步骤C32,否则,执行步骤C33;
这样即可将G(Yt(j))中的用户标签数据加入该数据持有方对应的样本用户特征数据中,并作为Mt(j)在该数据持有方的本地预测子模型的输入数据,这样即可学习到标签之间的相互关系。
当每一子模型输入数据和输出数据确认好后,可以选择预设的机器学习模型框架进行联邦学习,训练子模型,作为一种实施例,所述步骤C3中采用纵向神经网络的架构进行纵向联邦学习,生成Mt(j),第i数据持有方上的本地预测子模型为其中,u为第一神经网络模型深度,第t(j)数据持有方上的本地预测子模型还包括综合神经网络其中,h为第一神经网络模型深度,
具体包括:
步骤SC15、循环执行步骤C311-步骤C314,直至预测子模型Mt(j)收敛。
作为一种实施例,所述步骤C4包括:
步骤C41、并行执行所述标签有向无环图中无依赖节点所对应的预测子模型;
步骤C42、将每一无依赖节点所对应的预测子模型的预测输出加入到下一轮被其依赖的子模型对应的输入数据中;
步骤C43、将已经预测出的对应预测标签的无依赖节点从所述标签有向无环图中剔除,并判断当前所述标签标签有向无环图是否为空,若是,则结束流程,否则,返回步骤C41。
进一步的,所述步骤C4包括:
步骤C41、并行执行所述标签有向无环图中无依赖节点所对应的预测子模型;
步骤C411、获取原始标签有向无环图中原始无依赖节点对应的数据持有方序号集{t(s1),t(s2),...t(sc)...},其中,t(sc)表示第c个原始无依赖节点对应的数据持有方序号,sc=1,2,...n,c=1,2..且c<n,将xi输入并行执行所有Mt(sc),生成yt(sc),并删除所述原始无依赖节点;
步骤C412、获取当前标签有向无环图中无依赖节点对应的数据持有方序号集{t(p1),t(p2),...t(pc)...},其中,t(pc)表示第c个当前无依赖节点对应的数据持有方序号,pc=1,2,...n,c=1,2..且c<n,获取原始标签标签有向无环图中第t(pc)用户标签依赖节点对应的数据持有方序号集.{t(pc1),t(pc2),...t(pcd),...}以及{yt(pc1),yt (pc2),...yt(pcd),...},其中,t(pcd)表示第d个当前无依赖节点对应的数据持有方序号,yt (pcd)表示Mt(pcd)的预测结果,pcd=1,2,...n,d=1,2..且d<n,则若i属于{t(pc1),t(pc2),...t(pcd),...},则xi=xi+yt(pcd),将xi输入并行执行所有Mt(pc),生成yt(pc),并删除所有当前无依赖节点;
步骤C413、判断当前标签标签有向无环图是否为空,若是,则结束流程,否则,返回步骤C412。
通过步骤C411-步骤C413,最终生成所述待测用户所有标签{yt(1),yt(2),…,yt(n)},可以根据具体应用需要获取{yt(1),yt(2),…,yt(n)}中的任意一个或多个值,作为目标数据。
本发明实施例二通过构建基于标签有向无环图的联邦学习模型,将每一无依赖节点所对应的标签数据加入到下一轮被其依赖的子模型对应的输入数据中,使得在模型训练过程中能够学习到多标签之间的相关关系,基于多标签之间的相互关系进行联邦学习,提高模型精度,且基于标签有向无环图使得标签预测过程可以部分并行执行,不仅提高了模型训练和模型计算的执行速度,还基于标签有向无环图中一个标签被多个标签共同依赖的结构,进一步提高了模型精度。此外,标签预测阶段的循环次数等于标签有向无环图的最长依赖路径,因此可根据所需执行速度来设置标签有向无环图的最长依赖路径和标签有向无环图结构,且根据具体应用需求,可以在标签有向无环图的结构设计的模型精度与执行速度之间达到均衡,也增加了模型的灵活性。
本发明实施例还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明实施例一或实施例二所述的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机指令用于执行本发明实施例一或实施例二所述的方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (9)
1.一种基于树形结构的多标签联邦学习方法,其特征在于,包括:
步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,...,n,yik∈R,k=1,2,...,ni;
步骤S2、基于所述n个数据持有方的用户标签生成标签依赖关系树,其中,t(j)表示第j号树节点对应的数据持有方序号,j=1,2,...n,设置用户获取第t(j)个用户标签在所述标签依赖关系树中所有下层依赖标签集合的函数G(Yt(j));
步骤S3、以{X1,X2,...,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);
步骤S4、待测用户的特征为{x1,x2,...,xn},xi表示待测用户在第i个用户持有方对应的待测用户特征数据,基于{x1,x2,...,xn}、标签依赖关系树和Mt(j)生成所述待测用户所有标签{yt(1),yt(2),...,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。
2.根据权利要求1所述的方法,其特征在于,
优选的,所述步骤S1包括:
步骤S11、获取Z个客户端中每一客户端的数据,采用预设的对齐算法和隐私求交算法获取每一客户端中Z个客户端重叠的数据,作为每一客户端对应的用户数据,所述用户数据包括用户特征数据和用户标签数据;
步骤S12、获取第z客户端数据中用户标签的类别数量Wz,并判断Wz是否大于等于2,若是,则构建Wz个第z客户端对应的数据持有方,并以所述第z客户端对应的用户数据中的每一类用户标签数据作为一个数据持有方对应的用户标签数据集,以所述第z客户端对应的用户特征数据作为每一数据持有方对应的用户特征数据集,构建Wz个训练数据集,为每一数据持有方划分一个对应的训练数据集,否则,执行步骤S13,z=1,2,…Z;
步骤S13、构建一个第x客户端对应的数据持有方,并以第z客户端对应的用户标签数据作为用户标签数据集,以第z客户端对应的用户特征数据作为用户特征数据集,构建该数据持有方对应的训练数据集;
步骤S14、将基于所述Z个客户端数据生成的所有数据持有方的训练数据集,确定为所述n个数据持有方的训练数据集。
3.根据权利要求1所述的方法,其特征在于,
优选的,步骤S2包括:
步骤S21、获取所述n个用户标签中每一用户标签的目标精确度,将n个用户标签划分为T组用户标签,其中,其中第一组用户标签包括一个目标精确度最高的用户标签,第二组用户标签至第T组用户标签中每组包括一个或多个用户标签,且第t-1组标签中目标精确度的最小值大于第t组标签中目标精确度的最大值,t=2,3,…T;
步骤S22、将第一组用户标签中的用户标签设置为所述标签依赖关系树的根节点,将第t组标签中用户标签对应设置为第t层节点,每一用户标签对应一个节点,每一第t层节点随机或根据预设的标签依赖关系连接一个第t-1层节点,生成所述标签依赖关系树。
4.根据权利要求1所述的方法,其特征在于,
步骤S31、基于所述G(Yt(j))和标签依赖关系树获取第t(j)个用户标签在所述标签依赖关系树中所有下层依赖标签集合,作为第t(j)依赖标签集合,判断所述第t(j)依赖标签集合是否为空,若是,执行步骤S32,否则,执行步骤S33;
5.根据权利要求4所述的方法,其特征在于,
所述步骤S3中采用纵向神经网络的架构进行纵向联邦学习,生成Mt(j),第i数据持有方上的本地预测子模型为其中,u为第一神经网络模型深度,第t(j)数据持有方上的本地预测子模型还包括综合神经网络其中,h为第一神经网络模型深度,所述步骤S3具体包括:
步骤S315、循环执行步骤S311-步骤S314,直至预测子模型Mt(j)收敛。
6.根据权利要求1所述的方法,其特征在于,
所述步骤S4包括:
步骤S41、并行执行所述标签依赖关系树中叶子节点所对应的预测子模型;
步骤S42、将每一叶子节点所对应的预测子模型的预测输出加入到下一轮被其依赖的子模型对应的输入数据中;
步骤S43、将已经预测出的对应预测标签的叶子节点从所述标签依赖关系树中剔除,并判断当前所述标签依赖关系树是否为空,若是,则结束流程,否则,返回步骤S41。
7.根据权利要求6所述的方法,其特征在于,
所述步骤S4包括:
步骤S411、获取原始标签依赖关系树中原始叶子节点对应的数据持有方序号集{t(s1),t(s2),...t(sc)...},其中,t(sc)表示第c个原始叶子节点对应的数据持有方序号,sc=1,2,...n,c=1,2..且c<n,将xi输入并行执行所有Mt(sc),生成yt(sc),并删除所述原始叶子节点;
步骤S412、获取当前标签依赖关系树中叶子节点对应的数据持有方序号集{t(p1),t(p2),...t(pc)...},其中,t(pc)表示第c个当前叶子节点对应的数据持有方序号,pc=1,2,...n,c=1,2..且c<n,获取原始标签依赖关系树中第t(pc)用户标签依赖节点对应的数据持有方序号集.{t(pc1),t(pc2),...t(pcd),...}以及{yt(pc1),yt(pc2),...yf(pcd),...},其中,t(pcd)表示第d个当前叶子节点对应的数据持有方序号,yt(pcd)表示Mt(pcd)的预测结果,pcd=1,2,...n,d=1,2..且d<n,则若i属于{t(pc1),t(pc2),...t(pcd),...},则xi=xi+vt(pcd),将xi输入并行执行所有Mt(pc),生成yt(pc),并删除所有当前叶子节点;
步骤S413、判断当前标签依赖关系树是否为空,若是,则结束流程,否则,返回步骤S412。
8.一种电子设备,其特征在于,包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行前述权利要求1-7任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行前述权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110392743.8A CN113159152B (zh) | 2021-04-13 | 2021-04-13 | 基于树形结构的多标签预测方法、控制器和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110392743.8A CN113159152B (zh) | 2021-04-13 | 2021-04-13 | 基于树形结构的多标签预测方法、控制器和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159152A true CN113159152A (zh) | 2021-07-23 |
CN113159152B CN113159152B (zh) | 2023-04-07 |
Family
ID=76890174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110392743.8A Active CN113159152B (zh) | 2021-04-13 | 2021-04-13 | 基于树形结构的多标签预测方法、控制器和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159152B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200044938A1 (en) * | 2018-07-31 | 2020-02-06 | EMC IP Holding Company LLC | Allocation of Shared Computing Resources Using a Classifier Chain |
CN111160572A (zh) * | 2020-04-01 | 2020-05-15 | 支付宝(杭州)信息技术有限公司 | 一种基于多标签的联邦学习方法、装置和系统 |
CN111241567A (zh) * | 2020-01-16 | 2020-06-05 | 深圳前海微众银行股份有限公司 | 基于秘密共享的纵向联邦学习方法、系统及存储介质 |
CN111598186A (zh) * | 2020-06-05 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于纵向联邦学习的决策模型训练方法、预测方法及装置 |
CN112001500A (zh) * | 2020-08-13 | 2020-11-27 | 星环信息科技(上海)有限公司 | 基于纵向联邦学习系统的模型训练方法、设备及存储介质 |
CN112085159A (zh) * | 2020-07-24 | 2020-12-15 | 西安电子科技大学 | 一种用户标签数据预测系统、方法、装置及电子设备 |
CN112396189A (zh) * | 2020-11-27 | 2021-02-23 | 中国银联股份有限公司 | 一种多方构建联邦学习模型的方法及装置 |
CN112541556A (zh) * | 2020-12-24 | 2021-03-23 | 深圳前海微众银行股份有限公司 | 模型构建优化方法、设备、介质及计算机程序产品 |
-
2021
- 2021-04-13 CN CN202110392743.8A patent/CN113159152B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200044938A1 (en) * | 2018-07-31 | 2020-02-06 | EMC IP Holding Company LLC | Allocation of Shared Computing Resources Using a Classifier Chain |
CN111241567A (zh) * | 2020-01-16 | 2020-06-05 | 深圳前海微众银行股份有限公司 | 基于秘密共享的纵向联邦学习方法、系统及存储介质 |
CN111160572A (zh) * | 2020-04-01 | 2020-05-15 | 支付宝(杭州)信息技术有限公司 | 一种基于多标签的联邦学习方法、装置和系统 |
CN111598186A (zh) * | 2020-06-05 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于纵向联邦学习的决策模型训练方法、预测方法及装置 |
CN112085159A (zh) * | 2020-07-24 | 2020-12-15 | 西安电子科技大学 | 一种用户标签数据预测系统、方法、装置及电子设备 |
CN112001500A (zh) * | 2020-08-13 | 2020-11-27 | 星环信息科技(上海)有限公司 | 基于纵向联邦学习系统的模型训练方法、设备及存储介质 |
CN112396189A (zh) * | 2020-11-27 | 2021-02-23 | 中国银联股份有限公司 | 一种多方构建联邦学习模型的方法及装置 |
CN112541556A (zh) * | 2020-12-24 | 2021-03-23 | 深圳前海微众银行股份有限公司 | 模型构建优化方法、设备、介质及计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113159152B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291266A (zh) | 基于人工智能的推荐方法、装置、电子设备及存储介质 | |
CN109033107B (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
CN113011522B (zh) | 基于有向无环图的多标签联邦学习方法、控制器和介质 | |
CN111611488B (zh) | 基于人工智能的信息推荐方法、装置、电子设备 | |
CN111506820A (zh) | 推荐模型、方法、装置、设备及存储介质 | |
CN110008397A (zh) | 一种推荐模型训练方法及装置 | |
CN113343092A (zh) | 基于大数据挖掘的内容源推荐更新方法及云计算服务系统 | |
CN114880041A (zh) | 树形结构数据的处理方法、电子设备及存储介质 | |
CN115545160A (zh) | 一种多学习行为协同的知识追踪方法及系统 | |
CN114358250A (zh) | 数据处理方法、装置、计算机设备、介质及程序产品 | |
CN113159152B (zh) | 基于树形结构的多标签预测方法、控制器和介质 | |
CN112541556A (zh) | 模型构建优化方法、设备、介质及计算机程序产品 | |
CN113779116B (zh) | 对象排序方法、相关设备及介质 | |
CN115827198A (zh) | 任务分配方法、任务分配系统和计算机可读存储介质 | |
CN113011521B (zh) | 基于链式的多标签预测方法、控制器和介质 | |
CN114692012A (zh) | 一种基于Bert的神经协同过滤的电子政务推荐方法 | |
CN115238170A (zh) | 基于区块链金融的用户画像处理方法及系统 | |
CN114118312A (zh) | 一种gbdt模型的纵向训练方法、装置、电子设备及系统 | |
CN115858911A (zh) | 信息推荐方法、装置、电子设备及计算机可读存储介质 | |
CN114067139A (zh) | 一种相似物品的搜索方法及装置、计算机可读存储介质 | |
CN113779414B (zh) | 基于机器学习模型的数据推荐方法、装置、设备及介质 | |
CN113836407B (zh) | 推荐方法及相关装置 | |
Bonet Cervera | Age & gender recognition in the wild | |
Ruiz-Iniesta et al. | A framework for the rapid prototyping of knowledgebased recommender systems in the learning domain | |
CN111814958B (zh) | 公共文化服务个体映射到公共文化服务场景的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |