CN112819180B

CN112819180B - 一种基于联邦生成模型的多业务数据生成方法和装置

Info

Publication number: CN112819180B
Application number: CN202110100171.1A
Authority: CN
Inventors: 肖泳; 石光明; 葛晓虎; 夏荣; 李莹玉
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-10-15
Anticipated expiration: 2041-01-26
Also published as: CN112819180A

Abstract

本发明公开了一种基于联邦生成模型的多业务数据生成方法和装置，属于机器学习领域，所述方法包括：S1：利用协调方将初始模型下发至多个持有不同业务数据集的参与方；S2：多个参与方使用本地业务数据集对初始模型进行训练分别得到本地鉴别器、本地分类器和对应多个业务的本地生成器；S3：至少一个参与方将本地鉴别器和本地分类器发送给协调方；S4：协调方对接收的本地鉴别器和本地分类器分别进行联邦聚合得到联邦鉴别器和联邦分类器，并发送给参与方；S5：各个参与方利用联邦鉴别器和联邦分类器训练本地生成器，得到更新生成器生成多业务数据。本发明能够在保证神经网络训练效率和业务数据共享安全性的同时，实现多业务数据集的分类与生成。

Description

一种基于联邦生成模型的多业务数据生成方法和装置

技术领域

本发明属于机器学习领域，更具体地，涉及一种基于联邦生成模型的多业务数据生成方法和装置。

背景技术

业务流量分析和处理在网络动态监测、资源部署等情形中都具有重要作用。准确而全面的业务分析通常需要使用大量带标签的数据集进行模型训练。

然而，这类方法在实际应用中依然存在缺陷。首先，采集大量带标签的业务数据来训练深度神经网络模型费时费力；其次，我们有时难以采集到足够数量的高质量数据集，比如，在新兴业务得到应用的初级阶段；此外，出于数据隐私的考虑，不同的业务数据集持有者之间不愿意直接进行数据共享。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于联邦生成模型的多业务数据生成方法和装置，其目的在于实现面向多个分布式业务数据集的混合多类型业务数据的分类与生成，由此解决利用大量带标签的业务数据训练深度神经网络模型费时费力及业务数据共享的安全性低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于联邦生成模型的多业务数据生成方法，包括：

S1：利用协调方将初始模型下发至多个持有不同业务数据集的参与方，其中，所述初始模型包括：初始鉴别器、初始分类器和多个初始生成器；

S2：多个所述参与方使用本地业务数据集对所述初始鉴别器、所述初始分类器以及多个所述初始生成器进行训练分别得到本地鉴别器、本地分类器和多个本地生成器；

S3：至少一个所述参与方将所述本地鉴别器和所述本地分类器发送给协调方；

S4：所述协调方对所述至少一个参与方发送的所述本地鉴别器以及所述本地分类器分别进行联邦聚合，并将联邦聚合得到联邦鉴别器和联邦分类器发送给多个所述参与方；

S5：各个所述参与方利用所述联邦鉴别器和所述联邦分类器辅助训练多个所述本地生成器，利用辅助训练后更新得到的本地生成器根据分类后的所述本地业务数据集生成多业务数据。

在其中一个实施例中，所述步骤S1之前，所述方法还包括：

S01：多个所述参与方使用所述本地业务数据集训练多个所述本地生成器，利用本地生成器生成一定数量的虚拟样本并发送部分或全部数量的虚拟样本至所述协调方；

S02：所述协调方还使用所述虚拟样本训练最初本地的分类器、鉴别器、多个生成器得到所述初始模型。

在其中一个实施例中，所述步骤S02包括：

所述协调方利用所述虚拟样本训练最初本地的分类器、鉴别器、多个生成器得到所述初始模型；

当所述参与方对应的联邦训练过程收敛时，所述参与方得到的联邦模型中的多个初始生成器能够生成和本地已有的业务数据相似的虚拟数据样本，还能够生成与其他参与方所持有的数据集中业务数据相似的虚拟数据样本。

在其中一个实施例中，所述步骤S01之后，所述方法还包括：S03：所述协调方在收到所有参与方发生的虚拟样本后，对所述虚拟样本进行聚类得到聚类结果，并根据所述聚类结果确定初始生成器的数量，所述初始生成器用于对参与方本地生成器进行初始化。

在其中一个实施例中，所述步骤S5包括：

S51：各个所述参与方利用本地生成器生成的虚拟样本训练本地分类器；利用真实本地真实业务数据集和虚拟样本训练本地鉴别器；利用本地分类器和本地鉴别器联合训练得到更新生成器；

S52：各个所述参与方使用所述联邦分类器对所述本地业务数据集进行分类得到分类结果；

S53：根据所述分类结果，各个所述参与方利用多个所述更新生成器生成多业务数据。

在其中一个实施例中，所述步骤S53包括：

根据所述本地业务数据集的分类结果，各个参与方利用多个所述更新生成器有针对地生成不同业务类型的虚拟数据。

在其中一个实施例中，所述步骤S53包括：

根据所述本地业务数据集的分类结果，各个参与方利用多个所述更新生成器按照不同场景需求生成不同的虚拟混合业务数据集。

按照本发明的另一方面，提供了一种基于联邦生成模型的多业务数据生成装置，包括：

下发模块，用于利用协调方将初始模型下发至多个持有不同业务数据集的参与方，其中，所述初始模型包括：初始鉴别器、初始分类器和多个初始生成器；

训练模块，用于多个所述参与方使用本地业务数据集对所述初始鉴别器、所述初始分类器以及多个所述初始生成器进行训练分别得到本地鉴别器、本地分类器和多个本地生成器；

上传模块，用于至少一个所述参与方将所述本地鉴别器和所述本地分类器发送给协调方；

聚合模块，用于所述协调方对所述至少一个参与方发送的所述本地鉴别器以及所述本地分类器分别进行联邦聚合，并将联邦聚合得到联邦鉴别器和联邦分类器发送给多个所述参与方；

生成模块，用于各个所述参与方利用所述联邦鉴别器和所述联邦分类器辅助训练多个所述本地生成器，利用辅助训练后更新得到的本地生成器根据分类后的所述本地业务数据集生成多业务数据。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明利用多个参与方协同训练的联邦鉴别器和联邦分类器来辅助训练本地多个生成器，可以实现多类型的业务数据生成。其中，生成的虚拟数据类型不仅包括与本地已有的业务数据类型极其相似的虚拟数据样本，还包括与其他参与方所持有的数据集中的业务数据极其相似的虚拟数据样本，并且每个虚拟数据样本都自动被标注了业务类型伪标签。因此，本发明可以有效聚合多个分布式业务数据集信息，并基于少量真实业务数据样本，得到大量带标签的虚拟数据，从而有效缓解业务流量分析和处理中对数据样本标签以及数据量的依赖。进一步地能够提高神经网络训练的效率，同时提高业务数据共享的安全性。

(2)本发明使用上述多个生成器生成的大量虚拟数据及其对应业务类型伪标签训练分类器，一方面改善了由于训练样本数量不足可能导致的模型过拟合问题；另一方面打破了本地业务数据类型的局限性，提高了分类模型可区分数据类型的多样性。

附图说明

图1为现有技术中提供的一种传统的联邦模型训练的流程示意图；

图2为本申请一实施例提供的基于联邦生成模型的多业务数据生成方法的流程图；

图3为本申请一实施例提供的步骤S5的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

联邦学习(Federated Learning)，又名联合学习、联盟学习，是一种分布式的机器学习框架，能帮助多个参与方在不泄露本地数据的情况下，进行联合机器学习建模。其主要思想为：联邦学习架构中的多个参与方使用本地数据集对协调方下发的联邦模型进行分布式训练，训练完成后返回本地更新后的模型；协调方对接收到的多个本地模型进行模型聚合，得到更新后的联邦模型，并再次下发联邦模型至多个参与方。上述过程不断重复，直至模型收敛或达到最大重复次数。在模型训练过程中，多个参与方持有的数据集始终未离开本地，由此防止了数据泄露；除此之外，恰当的模型聚合方式能有效聚合多方信息，由此达到联合训练的目的。

如图1所示，以下给出一种传统的联邦训练的流程示意图，具体包括：

步骤S101：多个参与方使用本地数据集进行本地模型训练；

步骤S102：多个参与方上传本地模型的训练信息，训练信息为本地模型的模型参数；

步骤S103：协调方将接收到的多个模型信息进行聚合得到联邦模型；

步骤S104：协调方将联邦模型下发至多个参与方；

步骤S105：不断重复步骤S101-S104，直至联邦模型收敛或达到规定最大重复次数。

在本发明实例中，多个持有不同业务数据集的参与方使用本地业务数据集训练本地鉴别器、本地分类器以及多个本地生成器，协调方对至少一个参与方发送的本地鉴别器以及本地分类器分别进行联邦聚合，由此实现不同业务数据集持有者之间的协同训练。

如图2所示，本发明提供了一种基于联邦生成模型的多业务数据生成方法，包括：

S1：利用协调方将初始模型下发至多个持有不同业务数据集的参与方，其中，初始模型包括：初始鉴别器、初始分类器和多个初始生成器；

S2：多个参与方使用本地业务数据集对初始鉴别器、初始分类器以及多个初始生成器进行训练分别得到本地鉴别器、本地分类器和多个本地生成器；

S3：至少一个参与方将本地鉴别器和本地分类器发送给协调方；

S4：协调方对至少一个参与方发送的本地鉴别器以及本地分类器分别进行联邦聚合，并将联邦聚合得到联邦鉴别器和联邦分类器发送给多个参与方；

S5：各个参与方利用联邦鉴别器和联邦分类器辅助训练多个本地生成器，利用辅助训练后更新得到的本地生成器根据分类后的本地业务数据集生成多业务数据。

具体的，S1.协调方将初始模型下发至多个持有不同业务数据集的参与方。其中，初始模型包括生成器、鉴别器和多个生成器。S2.多个持有不同业务数据集的参与方使用本地业务数据集对初始鉴别器、分类器以及多个生成器进行训练。其中，多个生成器与鉴别器进行对抗训练：多个生成器的目标在于生成和本地业务数据集相似以至于无法区分的虚拟数据，鉴别器的目标在于正确区分多个生成器生成的虚拟数据。分类器以多个生成器生成的虚拟数据为输入，其目标在于把不同生成器生成的虚拟数据进行归类，一个类别对应一个生成器的输出。S3.至少一个持有不同业务数据集的参与方将本地鉴别器以及本地分类器发送给协调方。S4.协调方对至少一个参与方发送的本地鉴别器以及本地分类器分别进行联邦聚合，得到联邦鉴别器以及联邦分类器。其中，联邦聚合的目的在于有效聚合多个业务数据集的特征，以达到协同训练的目的。S5.参与方利用联邦鉴别器以及联邦分类器辅助训练本地多个生成器。一般来说，经过协调器进行联邦之后的联邦模型与本地模型的参数存在一定差异。

在本发明中，多个参与方发送本地鉴别器和本地分类器至协调方，以期望通过联邦的方式获取其他业务数据集的特征信息。得到来自协调方反馈的联邦鉴别器和联邦分类器之后，多个参与方再次使用本地数据集对联邦鉴别器、联邦分类器和未经过联邦的多个本地生成器进行模型训练和更新，这样一方面使用本地业务数据集对联邦模型进行了调整，另一方面，未进行联邦的多个本地生成器也能够得到通过联邦获取到的其他业务数据集的特征信息，从而生成具有全局业务数据集特征的虚拟数据。

上述方法中，分类器的类别数对应着每个参与方持有的本地生成器的个数。我们希望生成器具有生成所有业务数据类型的能力，分类器也能将不能类型的业务数据区分开来，因此，本地生成器数量应该与所有参与方持有的数据集中的业务的种类相等。当全局业务种类未知时，协调方可以采取一定的措施来进行估计。

在其中一个实施例中，步骤S1之前，所述方法还包括：S01：多个参与方使用本地业务数据集训练多个本地生成器，并发送一定数量的虚拟样本至协调方；S02：协调方还使用虚拟样本训练最初本地的分类器、鉴别器、多个生成器得到初始模型。

在其中一个实施例中，步骤S01之前，方法还包括：S03协调方对虚拟样本进行聚类得到聚类结果，并根据聚类结果确定初始生成器数量，初始生成器用于对参与方本地生成器进行初始化。

基于上述分析，本发明方法在执行步骤S1之前还可包括以下处理，完整方法流程参考图3：多个持有不同业务数据集的参与方使用本地业务数据集训练本地生成器，并发送一定数量的虚拟样本到协调方；协调方对接收到的来自多个参与方的虚拟样本进行聚类，根据聚类结果确定初始生成器的数量，并使用虚拟样本训练初始生成器、鉴别器、多个生成器。

在其中一个实施例中，步骤S02包括：协调方利用虚拟样本训练最初本地的分类器、鉴别器、多个生成器得到初始模型；当参与方对应的联邦训练过程收敛时，参与方得到的联邦模型中的多个初始生成器能够生成和本地已有的业务数据相似的虚拟数据样本，还能够生成与其他参与方所持有的数据集中业务数据相似的虚拟数据样本。

具体的，当联邦训练过程收敛时，本地多个生成器不仅能够生成和本地已有的业务数据相似的虚拟数据样本，也有能力生成与其他参与方所持有的数据集中的业务数据相似的虚拟数据样本。此外，不同生成器生成的虚拟业务种类几乎不发生重叠，联邦分类器能够对不同生成器生成的虚拟数据进行正确归类。

模型训练过程中，分类器是由多个生成器生成的虚拟样本所训练的，即便如此，随着生成器生成质量的不断提高，最终生成器生成的虚拟数据和真实数据样本极其相似，因此，分类器同样具备了对真实业务数据进行分类的能力，可以实现对本地业务数据集的分类。

在其中一个实施例中，如图3所示，步骤S5包括：

S51：各个参与方利用本地生成器生成的虚拟样本训练本地分类器；利用真实本地真实业务数据集和虚拟样本训练本地鉴别器；利用本地分类器和本地鉴别器联合训练得到更新生成器；

S52：各个参与方使用联邦分类器对本地业务数据集进行分类得到分类结果；

S53：根据分类结果，各个参与方利用多个更新生成器生成多业务数据。

具体的，对本地业务数据集进行分类之后，根据分类结果，可以评估本地业务数据类型数量以及不同类型业务数据的分布情况。比如，对于某个参与方来说，对其持有的本地业务数据集进行分类可能出现如下情况：某一种业务类型的数据占据了其数据集的一大部分；有几种类型的业务只有少量数据样本；还有几种类型的业务并未出现在其本地数据集中，等等。

还可以根据本地业务数据类型分类结果，参与方使用本地多个生成模型有针对地生成不同业务类型的虚拟数据，也可以根据不同场景需求，生成不同的虚拟混合业务数据集。

在其中一个实施例中，步骤S53包括：根据本地业务数据集的分类结果，各个参与方利用多个更新生成器有针对地生成不同业务类型的虚拟数据。

在其中一个实施例中，步骤S53包括：根据本地业务数据集的分类结果，各个参与方利用多个更新生成器按照不同场景需求生成不同的虚拟混合业务数据集。

按照本发明的另一方面，提供了一种基于联邦生成模型的多业务数据生成装置，包括：下发模块，用于利用协调方将初始模型下发至多个持有不同业务数据集的参与方，其中，初始模型包括：初始鉴别器、初始分类器和多个初始生成器；训练模块，用于多个参与方使用本地业务数据集对初始鉴别器、初始分类器以及多个初始生成器进行训练分别得到本地鉴别器、本地分类器和多个本地生成器；上传模块，用于至少一个参与方将本地鉴别器和本地分类器发送给协调方；聚合模块，用于协调方对至少一个参与方发送的本地鉴别器以及本地分类器分别进行联邦聚合，并将联邦聚合得到联邦鉴别器和联邦分类器发送给多个参与方；生成模块，用于各个参与方利用联邦鉴别器和联邦分类器辅助训练多个本地生成器，利用辅助训练后更新得到的本地生成器根据分类后的本地业务数据集生成多业务数据。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于联邦生成模型的多业务数据生成方法，其特征在于，包括：

S1：利用协调方将初始模型下发至多个持有不同业务数据集的参与方，其中，所述初始模型包括：初始鉴别器、初始分类器和多个初始生成器，所述生成器的目标在于生成和本地业务数据集相似以至于无法区分的虚拟数据，鉴别器的目标在于正确区分多个生成器生成的虚拟数据，分类器以多个生成器生成的虚拟数据为输入，其目标在于把不同生成器生成的虚拟数据进行归类，一个类别对应一个生成器的输出；

S5：各个所述参与方利用所述联邦鉴别器和所述联邦分类器辅助训练多个所述本地生成器以使本地生成器能够得到通过联邦获取到其他业务数据集的特征信息、从而生成具有全局业务数据集特征的虚拟数据，其中，多个生成器与鉴别器进行对抗训练，利用辅助训练后更新得到的本地生成器根据分类后的所述本地业务数据集生成多业务数据。

2.如权利要求1所述的基于联邦生成模型的多业务数据生成方法，其特征在于，所述步骤S1之前，所述方法还包括：

S02：所述协调方使用所述虚拟样本训练最初本地的分类器、鉴别器、多个生成器得到所述初始模型。

3.如权利要求2所述的基于联邦生成模型的多业务数据生成方法，其特征在于，所述步骤S02包括：

所述协调方利用所述虚拟样本训练最初本地的分类器、鉴别器、多个生成器得到所述初始模型，并将所述初始模型下发给所述参与方；

当所述参与方对应的联邦训练过程收敛时，所述参与方得到的联邦模型中的多个生成器能够生成和本地已有的业务数据相似的虚拟数据样本，还能够生成与其他参与方所持有的数据集中业务数据相似的虚拟数据样本。

4.如权利要求2所述的基于联邦生成模型的多业务数据生成方法，其特征在于，所述步骤S01之后，所述方法还包括：

S03：所述协调方在收到所有参与方发生的虚拟样本后，对所述虚拟样本进行聚类得到聚类结果，并根据所述聚类结果确定初始生成器的数量，所述初始生成器用于对参与方本地生成器进行初始化。

5.如权利要求1-4任一项所述的基于联邦生成模型的多业务数据生成方法，其特征在于，所述步骤S5包括：

6.如权利要求5所述的基于联邦生成模型的多业务数据生成方法，其特征在于，所述步骤S53包括：

7.如权利要求5所述的基于联邦生成模型的多业务数据生成方法，其特征在于，所述步骤S53包括：

8.一种基于联邦生成模型的多业务数据生成装置，其特征在于，包括：

下发模块，用于利用协调方将初始模型下发至多个持有不同业务数据集的参与方，其中，所述初始模型包括：初始鉴别器、初始分类器和多个初始生成器，所述生成器的目标在于生成和本地业务数据集相似以至于无法区分的虚拟数据，鉴别器的目标在于正确区分多个生成器生成的虚拟数据，分类器以多个生成器生成的虚拟数据为输入，其目标在于把不同生成器生成的虚拟数据进行归类，一个类别对应一个生成器的输出；

生成模块，用于各个所述参与方利用所述联邦鉴别器和所述联邦分类器辅助训练多个所述本地生成器以使本地生成器能够得到通过联邦获取到其他业务数据集的特征信息、从而生成具有全局业务数据集特征的虚拟数据，其中，多个生成器与鉴别器进行对抗训练，利用辅助训练后更新得到的本地生成器根据分类后的所述本地业务数据集生成多业务数据。