CN112434337A

CN112434337A - 分布式训练生成模型的方法、系统及介质

Info

Publication number: CN112434337A
Application number: CN202011368592.4A
Authority: CN
Inventors: 蔡晓华; 杨光辉
Original assignee: Shanghai Netis Technologies Co ltd
Current assignee: Shanghai Netis Technologies Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-02

Abstract

本发明提供了一种分布式训练生成模型的方法、系统及介质，包括：步骤1：通过预设网络和该网络的真实数据，训练生成模型，并得到模型参数；步骤2：将模型参数传输到域外的主服务器模型中；步骤3：根据模型参数，对主服务器模型进行增量学习，得到主服务器模型的模型参数；步骤4：将其他网络的模型参数传输到主服务器模型中，对主服务器模型进行增量学习，并对主服务器模型的模型参数进行调整，得到最终的主服务器模型；步骤5：将主服务器模型的模型参数传输到各网络中，完成各网络之间信息的交互。本发明通过多网络分别训练生成模型，生成并非真实存在的数据，可避免泄露真实数据，保障了信息的安全。

Description

分布式训练生成模型的方法、系统及介质

技术领域

本发明涉及模型生成和学习技术领域，具体地，涉及一种分布式训练生成模型的方法、系统及介质。

背景技术

现有的在多个网络的各自服务器上训练的模型多数是用真实数据训练的分类模型，尽管跨域传输的是模型参数，亦不能免除真实数据泄露之担忧。

专利文献(申请号：CN201911416544.5)公开了一种模型训练方法、装置、服务器及存储介质，该方法包括：接收客户端发送的训练请求；分配目标数量个图形处理器，创建客户端对应的容器；利用客户端对应的分布式存储卷获取从分布式存储系统获取模型的训练参考信息，将模型的训练参考信息加载到客户端对应的容器中；基于模型的训练参考信息，生成训练环境数据；利用生成的训练环境数据和目标数量个图形处理器，对模型进行训练，利用客户端对应的分布式存储卷将生成的训练环境数据存储在分布式存储系统中。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种分布式训练生成模型的方法、系统及介质。

根据本发明提供的分布式训练生成模型的方法，包括：

步骤1：通过预设网络和该网络的真实数据，训练生成模型，并得到模型参数；

步骤2：将模型参数传输到域外的主服务器模型中；

步骤3：根据模型参数，对主服务器模型进行增量学习，得到主服务器模型的模型参数；

步骤4：将其他网络的模型参数传输到主服务器模型中，对主服务器模型进行增量学习，并对主服务器模型的模型参数进行调整，得到最终的主服务器模型；

步骤5：将主服务器模型的模型参数传输到各网络中，完成各网络之间信息的交互。

优选的，在模型参数传输前对模型参数进行保存，传输方式包括在线网络传输和通过存储介质进行复制然后线下传输。

优选的，各网络之间通过主服务器模型进行参数共享，共享的参数是通过主服务器模型对各网络的模型参数进行调整后的参数。

根据本发明提供的分布式训练生成模型的系统，包括：

模块M1：通过预设网络和该网络的真实数据，训练生成模型，并得到模型参数；

模块M2：将模型参数传输到域外的主服务器模型中；

模块M3：根据模型参数，对主服务器模型进行增量学习，得到主服务器模型的模型参数；

模块M4：将其他网络的模型参数传输到主服务器模型中，对主服务器模型进行增量学习，并对主服务器模型的模型参数进行调整，得到最终的主服务器模型；

模块M5：将主服务器模型的模型参数传输到各网络中，完成各网络之间信息的交互。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

本发明通过在多个相互隔离的网络分别训练一套生成语言模型，用于生成并非真实存在的新语言数据，和域外服务器共享的模型参数是用于生成并非真实存在的新语言数据的模型参数，可无真实数据泄露之虞。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

参考图1，本发明包括A、B、C、Master等网络，具体部署可以基于常见的神经网络的框架，如：tensorflow、pytorch等，根据本发明提供的一种分布式训练生成模型的系统，包括：

网络1：A、B、C等，表示多个对等的网络。这些网络的各自服务器上均有运行一套相同的机器学习训练程序，根据各自不同的数据训练各自的模型。

网络2：Master网络的服务器没有真实数据，但有一个模型。该模型根据从A处得到的参数作增量学习，并于某时刻将增量学习后的模型参数传输给B、C等网络的服务器。

其中，对于网络1，具体来说包括以下部分：

部分1.1：训练程序。此程序用于训练一套生成模型，该模型可用以生成并非是真实数据的新数据。本发明旨在说明在A、B、C等多个网络中分别训练的上述生成模型，可以实现模型参数共享传输。

部分1.2：生成模型。部分1.1中提到的生成并非是真实数据的新数据，具体是指通过生成模型对真实数据进行训练，学会真实数据的表达，从而可以用来生成并非真实存在的新数据。

部分1.3：模型参数共享传输。部分1.1中提到的模型参数共享传输，具体是指在训练过程中的某个时间点，A、B、C等中某个网络的生成模型的参数向这些网络外的某个服务器进行共享传输，并在某个随后的时间点，该服务器向A、B、C等网络的服务器进行生成模型参数的传输。

参考图1，根据本发明提供的分布式训练生成模型的方法，包括如下步骤：

步骤1：训练生成模型。A网络的服务器使用A网络的真实数据训练生成模型(参考部分1.2)，于某时刻向网络外的Master服务器传输该模型的参数。这里A仅仅是代号，表示第一个训练的网络，也可以是B、C等。

步骤2：向域外传输生成模型参数。A将生成模型数据传输到Master，A首先要保存模型参数，然后通过可靠的传输方式发送模型参数。传输可以是在线的网络传输，也可以是使用存储介质(例如磁盘、U盘、CD等)进行复制然后线下传输。

步骤3：增量学习。Master服务器没有真实数据，但有一个模型。该模型根据从A处得到的参数作增量学习。增量学习以Master的模型参数为基础，向A的模型参数作一定的调整；

步骤4：传输增量学习后的模型参数。Master于某时刻将增量学习后的模型参数传输给B、C等网络的服务器，传输方式同步骤2，只是方向相反；

步骤5：增量学习。B、C等网络的服务器中的模型根据从Master处得到的参数作增量学习，随后使用B、C等网络的真实数据继续训练生成模型(参考部分1.2)，增量学习以B、C等网络的模型参数为基础，向Master的模型参数作一定的调整；

步骤6：向域外传输生成模型参数，同步骤2，B、C等网络于某时刻向网络外的Master服务器传输该模型的参数；

步骤7：增量学习，同步骤3；

步骤8：传输增量学习后的模型参数，同步骤4，只是本次模型参数会同时传输给A、B、C等所有网络；

步骤9：增量学习，同步骤5，使用真实数据的增量学习；

循环步骤6到步骤9。

具体应用环境1：

金融机构的客户真实数据由于隐私保护，在金融机构间不会共享。同时，金融机构内部使用大量的模型来辅助判断和决策。而模型的诸多性能都需要尽可能多且新的数据，这又需要各家机构共享数据。因此，本发明可应用于金融机构间非真实数据的联合学习。具体是在金融机构内网服务器上，通过对自家的真实数据进行学习，训练生成模型，该模型可用于生成非真实的数据，比如客户的交易记录。训练完成后，生成模型的参数会被传输到网络外的Master网络服务器上，Master网络服务器的生成模型进行增量训练，并将训练后的模型参数传输给其他金融机构的网络服务器，随后这些机构的网络服务器的生成模型进行增量训练，不断循环。如此，金融机构都不用担心自家的客户真实数据被外界知晓，同时通过共享非真实数据，自家模型也能具备广泛性和时效性。

具体应用环境2：

医疗机构的患者真实数据由于隐私保护，在医疗机构间不会共享。同时，医疗机构需要机器学习模型来辅助检测和诊断。而模型的诸多性能受限于自家样本的稀缺和偏差，这又需要各家机构共享数据。因此，本发明可应用于医疗机构间非真实数据的联合学习。具体是在医疗机构内网服务器上，通过对自家的真实数据进行学习，训练生成模型，该模型可用于生成非真实的数据，比如患者的检查图像。训练完成后，生成模型的参数会被传输到网络外的Master网络服务器上，Master网络服务器的生成模型进行增量训练，并将训练后的模型参数传输给其他医疗机构的网络服务器，随后这些机构的网络服务器的生成模型进行增量训练，不断循环。如此，医疗机构都不用担心自家的患者真实数据被外界知晓，同时通过共享非真实数据，自家模型也能具备广泛性和鲁棒性。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种分布式训练生成模型的方法，其特征在于，包括：

步骤2：将模型参数传输到域外的主服务器模型中；

2.根据权利要求1所述的分布式训练生成模型的方法，其特征在于，在模型参数传输前对模型参数进行保存，传输方式包括在线网络传输和通过存储介质进行复制然后线下传输。

3.根据权利要求1所述的分布式训练生成模型的方法，其特征在于，各网络之间通过主服务器模型进行参数共享，共享的参数是通过主服务器模型对各网络的模型参数进行调整后的参数。

4.一种分布式训练生成模型的系统，其特征在于，包括：

模块M2：将模型参数传输到域外的主服务器模型中；

5.根据权利要求4所述的分布式训练生成模型的系统，其特征在于，在模型参数传输前对模型参数进行保存，传输方式包括在线网络传输和通过存储介质进行复制然后线下传输。

6.根据权利要求4所述的分布式训练生成模型的系统，其特征在于，各网络之间通过主服务器模型进行参数共享，共享的参数是通过主服务器模型对各网络的模型参数进行调整后的参数。

7.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。