CN111898484A

CN111898484A - 生成模型的方法、装置、可读存储介质及电子设备

Info

Publication number: CN111898484A
Application number: CN202010675753.8A
Authority: CN
Inventors: 白翔; 张文庆; 邱阳; 柏松; 姜仟艺; 宋祺; 刘曦; 张睿; 魏晓林
Original assignee: Huazhong University of Science and Technology; Beijing Sankuai Online Technology Co Ltd
Current assignee: Huazhong University of Science and Technology; Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-11-06

Abstract

本公开涉及一种生成模型的方法、装置、可读存储介质及电子设备。方法包括：获取初始模型的至少一个目标初始网络层各自的初始参数矩阵和压缩比例；针对每一目标初始网络层，根据目标初始网络层的初始参数矩阵和压缩比例，对目标初始网络层进行压缩，以得到样本模型；获取样本数据集；根据样本数据集，对样本模型进行训练，以得到应用在样本数据集所属场景下的目标模型。如此，可以利用取值范围为大于0小于1的压缩比例对目标初始网络层进行压缩，使得压缩后的目标样本网络层中的参数数量小于初始网络层中的参数数量，进而减少了由目标样本网络层构成的样本模型的参数数量，使得目标模型的体积较小，有效地改善了目标模型的性能。

Description

生成模型的方法、装置、可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，具体地，涉及一种生成模型的方法、装置、可读存储介质及电子设备。

背景技术

近年来，大数据、云计算、物联网、深度学习和人工智能等数据平台和技术在互联网、金融等领域取得了巨大的进展，广泛应用于用户画像、产品推荐、商业运营等领域，然而生成这些推荐模型或者预测模型要求有充足的样本数据作为支撑。

相关技术中，多是基于一组集中存储的合成数据集进行训练，而合成数据通常不能反映出真实场景，所以生成的模型精度不高。而如果采用真实的样本数据生成模型，会产生以下问题：(1)模型的训练缺乏大量的真实标注数据，并且数据的标注耗费大量的人力财力；(2)由于数据隐私性等限制，不同的数据拥有方之间不能够直接共享数据，使得分散在各方的孤立的真实数据很难被集中有效利用，现有基于集中数据训练的模型性能也由于数据的不足而受到限制。因此，在此情况下，联邦学习技术应运而生，以在不直接共享数据的前提下，通过多端协同训练生成的模型性能和直接共享数据训练得到模型性能相近。

然而，通常情况下模型的参数量较大，在联邦学习的过程中，会造成大量的通信负担，降低模型生成效率，并且模型体积较大，导致所生成的模型的性能较差。

发明内容

本公开的目的是提供一种生成模型的方法、装置、可读存储介质及电子设备，以解决上述技术问题。

为了实现上述目的，本公开第一方面提供一种生成模型的方法，包括：

获取初始模型的至少一个目标初始网络层各自的初始参数矩阵和压缩比例；

针对每一所述目标初始网络层，根据所述目标初始网络层的初始参数矩阵和压缩比例，对所述目标初始网络层进行压缩，以得到样本模型，其中，压缩比例为大于0小于1的数值，所述样本模型中的、与所述目标初始网络层对应的目标样本网络层中的参数数量小于所述目标初始网络层的初始参数数量，所述初始参数数量是基于所述初始参数矩阵确定的；

获取样本数据集；

根据所述样本数据集，对所述样本模型进行训练，以得到应用在所述样本数据集所属场景下的目标模型。

可选地，所述根据所述目标初始网络层的初始参数矩阵和压缩比例，对所述目标初始网络层进行压缩，以得到样本模型，包括：

根据所述目标初始网络层的初始参数矩阵和压缩比例，确定压缩后的参数向量；以及

根据所述目标初始网络层的初始参数矩阵和压缩比例，确定用于表征所述压缩后的参数向量与压缩后的虚拟网络参数矩阵之间的映射关系的映射关系矩阵；

根据所述压缩后的参数向量和所述映射关系矩阵，确定压缩后的虚拟网络参数矩阵；

根据所述压缩后的虚拟网络参数矩阵更新所述目标初始网络层，以得到压缩后的目标样本网络层；

根据压缩得到的至少一个所述目标样本网络层和所述初始模型构建样本模型。

可选地，所述根据所述目标初始网络层的初始参数矩阵和压缩比例，确定用于表征所述压缩后的参数向量与压缩后的虚拟网络参数矩阵之间的映射关系的映射关系矩阵，包括：

根据哈希函数和随机种子，对已知数组进行随机排序以生成第一随机排序向量，其中，所述已知数组中的元素数量为所述目标初始网络层的初始参数数量，且数组中的每一元素的取值范围为0到T0-1，其中，T0为所述初始参数数量；

对所述第一随机排序向量中的每一元素与所述压缩比例的乘积结果向下取整，以得到第二随机排序向量；

根据所述第二随机排序向量和所述初始参数矩阵，生成用于表征所述压缩后的参数向量与压缩后的虚拟网络参数矩阵之间的映射关系的映射关系矩阵。

可选地，所述根据所述目标初始网络层的初始参数矩阵和压缩比例，确定压缩后的参数向量，包括：

根据所述目标初始网络层的初始参数矩阵，确定所述目标初始网络层的初始参数数量；

根据所述初始参数数量与所述压缩比例的乘积，确定压缩后的参数向量中的参数数量，其中，所述压缩后的参数向量中每一参数的数值的初始值均是随机生成的。

可选地，所述初始模型中的至少一部分网络层采用轻量级网络，其中，所述至少一部分网络层包括：用于提取特征的网络层，和/或，用于解码特征的网络层。

可选地，所述方法应用于对所述样本模型进行协同训练的多个客户端中的每一客户端。

可选地，每一所述客户端本地存储有样本数据集；所述根据所述样本数据集，对所述样本模型进行训练，包括：

根据所述客户端本地存储的所述样本数据集，对所述样本模型训练预设次数，其中，预设次数为正整数；

在本轮训练中训练次数达到所述预设次数后，确定本轮训练结束，并确定本轮训练结束时所述样本模型的参数调整向量，其中，所述参数调整向量中的参数数量等于所述目标样本网络层中的参数数量；

向与多个所述客户端相连的服务器发送所述参数调整向量，以由所述服务器根据每一客户端发送的所述参数调整向量，确定平均参数调整向量，并向每一所述客户端发送所述平均参数调整向量；

根据所接收到所述平均参数调整向量，对本轮训练结束时的所述样本模型进行更新；

确定是否满足训练终止条件；

在满足所述训练终止条件的情况下，将最近一次更新得到的样本模型确定为目标模型；

在不满足所述训练终止条件的情况下，当对本轮训练结束时的所述样本模型进行更新之后，重新执行所述根据所述客户端本地存储的所述样本数据集，对所述样本模型训练预设次数的步骤，直至满足所述训练终止条件。

可选地，所述确定在本轮训练结束时所述样本模型的参数调整向量，包括：

分别确定本轮训练初始时所述样本模型的第一参数向量，以及，本轮训练结束时所述样本模型的第二参数向量；

根据所述第一参数向量和所述第二参数向量，确定在本轮训练结束时所述样本模型的参数调整向量。

可选地，所述样本数据集为文本样本数据集，所述目标模型为用于识别文本的文本识别模型。

本公开第二方面提供一种生成模型的装置，包括：

第一获取模块，用于获取初始模型的至少一个目标初始网络层各自的初始参数矩阵和压缩比例；

压缩模块，用于针对每一所述目标初始网络层，根据所述目标初始网络层的初始参数矩阵和压缩比例，对所述目标初始网络层进行压缩，以得到样本模型，其中，压缩比例为大于0小于1的数值，所述样本模型中的、与所述目标初始网络层对应的目标样本网络层中的参数数量小于所述目标初始网络层的初始参数数量，所述初始参数数量是基于所述初始参数矩阵确定的；

第二获取模块，用于获取样本数据集；

训练模块，用于根据所述样本数据集，对所述样本模型进行训练，以得到应用在所述样本数据集所属场景下的目标模型。

可选地，所述压缩模块包括：

第一确定子模块，用于根据所述目标初始网络层的初始参数矩阵和压缩比例，确定压缩后的参数向量；以及

第二确定子模块，用于根据所述目标初始网络层的初始参数矩阵和压缩比例，确定用于表征所述压缩后的参数向量与压缩后的虚拟网络参数矩阵之间的映射关系的映射关系矩阵；

第三确定子模块，用于根据所述压缩后的参数向量和所述映射关系矩阵，确定压缩后的虚拟网络参数矩阵；

第一更新子模块，用于根据所述压缩后的虚拟网络参数矩阵更新所述目标初始网络层，以得到压缩后的目标样本网络层；

构建子模块，用于根据压缩得到的至少一个所述目标样本网络层和所述初始模型构建样本模型。

可选地，所述第二确定子模块包括：

第一生成子模块，用于根据哈希函数和随机种子，对已知数组进行随机排序以生成第一随机排序向量，其中，所述已知数组中的元素数量为所述目标初始网络层的初始参数数量，且数组中的每一元素的取值范围为0到T0-1，其中，T0为所述初始参数数量；

获取子模块，用于对所述第一随机排序向量中的每一元素与所述压缩比例的乘积结果向下取整，以得到第二随机排序向量；

第二生成子模块，用于根据所述第二随机排序向量和所述初始参数矩阵，生成用于表征所述压缩后的参数向量与压缩后的虚拟网络参数矩阵之间的映射关系的映射关系矩阵。

可选地，所述第一确定子模块包括：

第四确定子模块，用于根据所述目标初始网络层的初始参数矩阵，确定所述目标初始网络层的初始参数数量；

第五确定子模块，用于根据所述初始参数数量与所述压缩比例的乘积，确定压缩后的参数向量中的参数数量，其中，所述压缩后的参数向量中每一参数的数值的初始值均是随机生成的。

可选地，每一所述客户端本地存储有样本数据集；所述训练模块包括：

训练子模块，用于根据所述客户端本地存储的所述样本数据集，对所述样本模型训练预设次数，其中，预设次数为正整数；

第六确定子模块，用于在本轮训练中训练次数达到所述预设次数后，确定本轮训练结束，并确定本轮训练结束时所述样本模型的参数调整向量，其中，所述参数调整向量中的参数数量等于所述目标样本网络层中的参数数量；

发送子模块，用于向与多个所述客户端相连的服务器发送所述参数调整向量，以由所述服务器根据每一客户端发送的所述参数调整向量，确定平均参数调整向量，并向每一所述客户端发送所述平均参数调整向量；

第二更新子模块，用于根据所接收到所述平均参数调整向量，对本轮训练结束时的所述样本模型进行更新；

第七确定子模块，用于确定是否满足训练终止条件；

第八确定子模块，用于在满足所述训练终止条件的情况下，将最近一次更新得到的样本模型确定为目标模型；

驱动子模块，用于在不满足所述训练终止条件的情况下，当对本轮训练结束时的所述样本模型进行更新之后，驱动所述训练子模块重新执行所述根据所述客户端本地存储的所述样本数据集，对所述样本模型训练预设次数的步骤，直至满足所述训练终止条件。

可选地，所述第六确定子模块包括：

第九确定子模块，用于分别确定本轮训练初始时所述样本模型的第一参数向量，以及，本轮训练结束时所述样本模型的第二参数向量；

第十确定子模块，用于根据所述第一参数向量和所述第二参数向量，确定在本轮训练结束时所述样本模型的参数调整向量。

本公开第三方面还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面所提供的所述方法的步骤。

本公开第四方面还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所提供的所述方法的步骤。

通过上述技术方案，可以利用取值范围为大于0小于1的压缩比例对目标初始网络层进行压缩，使得压缩后的目标样本网络层中的参数数量小于初始网络层中的参数数量，进而减少了由目标样本网络层构成的样本模型的参数数量，使得目标模型的体积较小，有效地改善了目标模型的性能。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种联邦学习系统的示意图。

图2是根据一示例性实施例示出的一种生成模型的方法的流程图。

图3是根据一示例性实施例示出的一种构建样本模型的方法的流程图。

图4是根据一示例性实施例示出的一种训练样本模型的方法的流程图。

图5是根据一示例性实施例示出的一种生成模型的装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

在详细描述本公开提供的生成模型的方法之前，首先对本公开所采用的联邦学习框架进行说明。

图1是根据一示例性实施例示出的一种联邦学习系统的示意图。如图1所示，该系统可以包括服务器10和多个客户端20，其中，每个客户端20具有自己的样本数据集，并根据自己的样本数据集进行训练模型，且，多个样本数据集不共享。每个客户端20在本地根据自己的样本数据集训练模型，并在每轮训练结束时，将模型的参数值发送至服务器10，以使服务器10对每个客户端发送的模型的参数值进行融合，之后，下发至每个客户端，以使每个客户端基于服务器下放的相同的数值对模型进行更新并再次训练，最终生成模型。如此，在多个客户端不共享数据的情况下生成的模型性能和直接共享数据训练得到模型性能相近。

图2是根据一示例性实施例示出的一种生成模型的方法的流程图。如图2所示，该方法可以包括以下步骤。

在步骤201中，获取初始模型的至少一个目标初始网络层各自的初始参数矩阵和压缩比例。

值得说明的是，在本公开中，该初始模型可以任意模型，该模型可以是将要应用在任何场景下的模型，例如，该初始模型可以是文本识别初始模型、人脸识别初始模型、风险预测或评估初始模型等等。本公开对此不作具体限定。

在本公开中，该初始模型包括多个网络层，例如可以包括基准点定位网络层、预处理网络层、特征提取网络层和特征解码网络层等等。步骤201中的至少一个目标初始网络层可以包括上述中多个网络层中的至少一个。

此外，在本公开中，不同的目标初始网络层的初始参数矩阵可以相同，也可以不同。同样地，不同的目标初始网络层的压缩比例可以相同，也可以不同。

在步骤202中，针对每一目标初始网络层，根据目标初始网络层的初始参数矩阵和压缩比例，对目标初始网络层进行压缩，以得到样本模型，其中，压缩比例为大于0小于1的数值，样本模型中的、与目标初始网络层对应的目标样本网络层中的参数数量小于目标初始网络层的初始参数数量，初始参数数量是基于初始参数矩阵确定的。

在本公开中，可以按照同样的压缩过程对每一个目标初始网络层进行压缩。针对每一目标初始网络层，可以根据该目标初始网络层的初始参数矩阵和压缩比例，对目标初始网络层进行压缩，以得到压缩后的网络层，该压缩后的网络层可以称为目标样本网络层。如此，对每一目标初始网络层进行压缩后，均可以得到各自对应的目标样本网络层。之后，再根据所得到的目标样本网络层，生成样本模型。

在步骤203中，获取样本数据集。其中，该样本数据集用于训练样本模型，即，该样本数据集中包括的样本与初始模型有关。例如，初始模型为文本识别初始模型，则该样本数据集为文本数据集。又例如，初始模型为人脸识别初始模型，则该样本数据集为人脸图像数据集，等等。

在步骤204中，根据样本数据集，对样本模型进行训练，以得到应用在样本数据集所属场景下的目标模型。其中，对样本模型进行训练实质是对样本模型中的模型参数(以下简称参数)进行训练，由于压缩后所得的样本模型的参数数量小于初始模型的参数数量，因此，可以提高训练的效率。

示例地，若样本数据集为文本数据集，则训练得到的目标模型即为应用在文本识别场景下的目标模型，即，该目标模型为用于识别文本的文本识别模型。例如，该文本可以是营业执照、食品经营许可证、药品经营许可证、发票中的文本等等。

采用上述技术方案，可以利用取值范围为大于0小于1的压缩比例对目标初始网络层进行压缩，使得压缩后的目标样本网络层中的参数数量小于初始网络层中的参数数量，进而减少了由目标样本网络层构成的样本模型的参数数量，使得目标模型的体积较小，有效地改善了目标模型的性能。

为了进一步减少模型的参数数量，减少协同训练参数传输的通信成本，提高模型生成的效率，在一种实施例中，初始模型中的至少一部分网络层采用轻量级网络。其中，轻量级网络可以为SqueezeNet、MobileNet、ShuffleNet等等。在实际应用中，初始模型中的用于提取特征的网络层和/或用于解码特征的网络层通常属于模型中的主干网络层，参数数量较大，因此，在一种优选地实施例中，上述至少一部分网络可以包括：用于提取特征的网络层，和/或，用于解码特征的网络层。

采用上述技术方案，初始模型中的至少一部分网络采用轻量级网络，进而可以进一步减少模型的参数数量，提高模型生成的效率。

下面对本公开所提供的压缩过程进行详细说明。

在本公开中，可以采用哈希技术对目标初始网络层进行压缩。示例地，如图3所示，图2中步骤202可以进一步包括以下步骤2021至步骤2025。

在步骤2021中，根据目标初始网络层的初始参数矩阵和压缩比例，确定压缩后的参数向量。

示例地，首先，根据目标初始网络层的初始参数矩阵，确定目标初始网络层的初始参数数量。例如，假设目标初始网络层的初始参数矩阵为M_k×m×n，压缩比例为γ，γ为大于0小于1的数值，所确定的目标初始网络层的初始参数数量T0＝k×m×n。

之后，根据初始参数数量T0与压缩比例γ的乘积，确定压缩后的参数向量R中的参数数量，其中，压缩后的参数向量中每一参数的数值的初始值均是随机生成的。需要说明的是，在设置压缩比例时，如果T0×γ结果为整数，则T0×γ的结果即为压缩后的参数向量R中的参数数量，如果T0×γ结果不为整数，则将T0×γ的结果向上取整得到的整数，确定为压缩后的参数向量R中的参数数量。

值得说明的是，后续对样本模型进行训练实质是对压缩后的参数向量R进行更新，因此，在本公开中，对压缩后的参数向量R中的参数数值的初始值可以是随机生成的。例如，可以采用任意随机生成数据的方式生成压缩后的参数向量R中的参数数值的初始值。在已知压缩后的参数向量R中的参数数量为T0×γ，且每个参数的数值随机生成之后，即可获得压缩后的参数向量R。

在步骤2022中，根据目标初始网络层的初始参数矩阵和压缩比例，确定用于表征压缩后的参数向量与压缩后的虚拟网络参数矩阵之间的映射关系的映射关系矩阵。

在实际应用中，为了避免通过一些攻击手段得到真正的样本模型，在本公开中，可以基于虚拟网络参数矩阵生成样本模型，以实现对样本模型的加密，避免通过非法手段破解出模型，进而非法获取到样本数据。

示例地，首先，根据哈希函数和随机种子，对已知数组进行随机排序以生成第一随机排序向量。例如，可以利用相关技术中的根据哈希函数和随机种子随机生成数据的方式，生成第一随机排序向量。本公开对此不进行限制。其中，已知数组中的元素数量为目标初始网络层的初始参数数量，且数组中的每一元素的取值范围为0到T0-1，其中，T0为初始参数数量。例如，T0为27，第一随机排序向量可以为[0,1,2,3,4,5,6,7,8,9,10,11，12,13,14,15,16,17,18,19,20,21,22,23,24,25,26]。

接着，对第一随机排序向量中的每一元素与压缩比例的乘积结果向下取整，以得到第二随机排序向量。假设压缩比例γ＝6/27，则依次将第一随机排序向量中的每一元素的数值乘以γ，并向下取值，得到第二随机排序向量。例如，第二随机排序向量可以为[0,0,0,0,0,1,1,1,1,2,2,2,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5]。

之后，根据第二随机排序向量和初始参数矩阵，生成用于表征压缩后的参数向量与压缩后的虚拟网络参数矩阵之间的映射关系的映射关系矩阵S。

例如，假设初始参数矩阵M_k×m×n＝M_3×3×3，则可以将第二随机排序向量排布成3层3×3的矩阵，映射关系矩阵S可以表示为如公式(1)所示的形式：

值得说明的是，在本公开中，对步骤2021和步骤2022的执行顺序不作具体限定。例如，先执行步骤2021再执行步骤2022，还可以先执行步骤2022再执行步骤2021，也可以同时执行步骤2021和步骤2022。在图3中，以先执行步骤2021再执行步骤2022示例。

在步骤2023中，根据压缩后的参数向量和映射关系矩阵，确定压缩后的虚拟网络参数矩阵。

在确定出映射关系矩阵S之后，可以根据该压缩后的参数向量R和映射关系矩阵S，确定出压缩后的虚拟网络参数矩阵V。

在步骤2024中，根据压缩后的虚拟网络参数矩阵更新目标初始网络层，以得到压缩后的目标样本网络层。

值得说明的是，网络层是基于网络参数矩阵生成的，因此，在本公开中，在确定出压缩后的虚拟网络参数矩阵之后，即可对目标初始网络层进行更新，也就是，对目标初始网络层进行压缩，以得到压缩后的目标样本网络层。

如上所示，在对模型进行训练的过程中，压缩后的参数向量R会频繁的被更新，而在压缩后的参数向量R更新之后，相应地，压缩后的虚拟网络参数矩阵V也会频繁的被更新，从而实现对模型的训练。

在步骤2025中，根据压缩得到的最少一个目标样本网络层和初始模型构建样本模型。

在本公开中，目标初始网络层的数量可以为一个或多个。假设目标初始网络层为五层，则针对每一层均按照上述哈希技术进行压缩，得到的目标样本网络层也为五层。最后，根据该五层目标样本网络层和初始模型构建出样本模型，也就是，用该五层目标样本网络层替换初始模型中的五层目标初始网络层。其中，目标样本网络层的数量越多，最后构建的样本模型中的参数数量就越少，训练所得到的目标模型的体积越小，模型性能越好。采用哈希技术压缩模型，在减少模型参数提高模型性能的同时，还可以对模型参数进行加密，确保了参与训练的多个客户端各自的样本数据集的安全性。

值得说明的是，本公开提供的生成模型的方法可以应用于图1中所示的服务器，也可以应用于图1中所示的每一客户端。

在一种实施例中，该生成模型的方法应用于服务器10。在服务器10中按照上述方式生成样本模型，之后，将该样本模型发送至每一客户端20，以使每一客户端20利用本地样本数据集，对模型进行训练，并获取客户端20每轮训练后反馈的参数调整值，以更新样本模型，进而生成目标模型。

然而，如果在服务器10中生成样本模型，在训练过程中，服务器10可以根据每一客户端反馈的参数调整值，通过一些非法的攻击方式(例如，模型倒置、对抗生成网络等等)来窃取到各个客户端20本地的样本数据集，如此，在联邦学习过程中，就会导致各个参与方(客户端)的隐私泄露的弊端。

因此，在又一种实施例中，该生成模型的方法可以应用于对样本模型进行协同训练的多个客户端中的每一客户端20。这样，由于是在客户端20本地生成的样本模型，服务器10就无法获得生成样本模型过程中所是使用的哈希函数和随机种子，也就无法得到一个完整的样本模型，进而也就无法通过例如模型倒置、对抗生成网络等等攻击方式，获取到各个参与训练模型的各个客户端20的样本数据集，如此，确保了参与训练模型的各个客户端20的隐私。

值得说明的是，在该实施例中，每一客户端20均可以对初始模型进行压缩，以得到样本模型。其中，每一客户端20本地存储有初始模型，并且，所存储的初始模型为同一初始模型，即，初始模型中包括的每层网络均是相同的，且训练过程中所采用的损失函数也相同。但是，在压缩过程中，不同客户端针对同一目标初始网络层所使用的压缩比例、哈希函数以及随机种子需完全相同，这样，才能确保每一客户端20生成的压缩后的参数向量中的初始值是一样的，即，样本模型是完全相同。在后续对样本模型进行训练时，每一客户端20都是对其自己生成的样本模型进行训练。

下面以执行该生成模型的方法的主体为每一客户端20为例，对样本模型进行训练得到目标模型的具体实施方式进行说明。

图4是根据一示例性实施例示出的一种训练样本模型的方法的流程图。如图4所示，图2中的步骤204可以进一步包括以下步骤。

在步骤2041中，根据客户端本地存储的样本数据集，对样本模型训练预设次数，其中，预设次数为正整数。

在本公开中，针对每一客户端20，在生成样本模型之后，采用其本地存储的样本数据集对该样本模型进行训练。示例地，在本公开中，可以设定每训练预设次数即为训练一轮。其中，每一客户端中预设次数均是相同的。

在步骤2042中，在本轮训练中训练次数达到预设次数后，确定本轮训练结束，并确定本轮训练结束时样本模型的参数调整向量，其中，参数调整向量中的参数数量等于目标样本网络层中的参数数量。

预先设定每训练预设次数即为训练一轮，因此，在本轮训练过程中，如果训练次数达到预设次数，则确定本轮训练结束，并进一步确定本轮训练结束时样本模型的参数调整向量。其中，该参数调整向量是指本轮训练结束时样本模型的参数向量相对于本轮训练初始时样本模型的参数向量的变化量，因此，该参数调整向量的参数数量等于目标样本网络层中的参数数量。

示例地，分别确定本轮训练初始时样本模型的第一参数向量，以及，本轮训练结束时样本模型的第二参数向量；根据第一参数向量和第二参数向量，确定在本轮训练结束时样本模型的参数调整向量。

例如，在生成样本模型之后，开始第一轮训练，此时，由于是客户端20生成的样本模型，因此，客户端已知样本模型的参数向量，即，上述所确定的压缩后的参数向量。首先，将此时的该压缩后的参数向量作为第一轮训练初始时样本模型的第一参数向量。接着，将客户端本地存储的样本数据集输出入样本模型中，对样本模型进行训练。接着，在训练次数达到预设次数时，确定样本模型的第一轮训练结束，并确定出第一轮训练结束时样本模型的第二参数向量，最后，确定出第二参数向量相对于第一参数向量的变化值，该变化值即为第一轮训练结束时样本模型的参数调整向量。相应地，每一客户端20均可计算出第一轮训练结束时样本模型的参数调整向量。

在步骤2043中，向与多个客户端相连的服务器发送参数调整向量，以由服务器根据每一客户端发送的所述参数调整向量，确定平均参数调整向量，并向每一客户端发送平均参数调整向量。

每一客户端20将所确定出的第一轮训练结束时样本模型的参数调整向量发送至服务器10。服务器10在接收到每一客户端20发送的第一轮训练结束时样本模型的参数调整向量时，根据多个参数调整向量，计算平均参数调整向量。例如，参与协同训练的客户端的数量为N，N为大于1的整数。第i个客户端20确定的参数调整向量为[r_i1,r_i2,r_i3,r_i4,r_i5,r_i6]，其中，压缩后的参数向量中包括的元素个数为6，r_i1表征第i个客户端20确定的第一个参数的调整值，……r_i6表征第i个客户端20确定的第六个参数的调整值，服务器10可以计算出平均参数调整向量为

并将该平均参数调整向量发送至每一客户端20。

在步骤2044中，根据所接收到平均参数调整向量，对本轮训练结束时的样本模型进行更新。

沿用上述例子，客户端20接收到平均参数调整向量时，在第一轮训练结束时样本模型的第二参数向量的基础上叠加该平均参数调整向量，以得到样本模型的当前参数向量，并利用该当前参数向量，对第一轮训练结束时的样本模型进行更新，以得到最新的样本模型。之后，开始第二轮训练，即，利用样本数据集对最新的样本模型进行训练。在本轮中，当训练次数达到所述预设次数时认为本轮训练结束，并按照上述方式确定出本轮训练结束时样本模型的参数调整向量，并发送至服务器10，进而服务器10再次按照上述方式计算出平均参数调整向量，下发至每一客户端20。这样，每一客户端20接收到平均参数调整向量，对本轮训练结束时的样本模型进行更新，之后，开始新一轮的训练。

在步骤2045中，确定是否满足训练终止条件。在本公开中，该训练终止条件用于指示什么时候终止训练，其例如可以包括：训练轮次达到预设轮次、样本模型中的损失函数收敛、样本模型精度达到预设数值中的至少一者。在确定满足训练终止条件的情况下，执行步骤2046。在确定不满足训练终止条件的情况下，当对本轮训练结束时的所述样本模型进行更新之后，重新执行所述根据客户端本地存储的所述样本数据集，对所述样本模型训练预设次数的步骤，直至满足所述训练终止条件，即，当对本轮训练结束时的所述样本模型进行更新之后，重新执行步骤2041至步骤2045，直到满足训练终止条件。

在步骤2046中，将最近一次更新得到的样本模型确定为目标模型。

在满足上述预先条件时，例如，训练次数达到预设轮次，或者，样本模型中的损失函数收敛到某一数值，或者，样本模型精度达到某一精度值，又或者，上述三种条件同时满足，停止训练，并将最近一次更新得到的样本模型确定为目标模型。

采用上述技术方案，服务器每次仅能得到客户端反馈的参数调整向量，在未得到哈希函数和随机种子的情况下，无法构造完整的模型，因此，可以在不额外增加计算成本的基础上可以实现对参数进行加密，有效地防止了服务器通过攻击方式获取各个客户端的样本数据集。

基于同一发明构思，本公开还提供一种生成模型的装置。图5是根据一示例性实施例示出的一种生成模型的装置的框图。如图5所示，该生成模型的装置500可以包括：

第一获取模块501，用于获取初始模型的至少一个目标初始网络层各自的初始参数矩阵和压缩比例；

压缩模块502，用于针对每一所述目标初始网络层，根据所述目标初始网络层的初始参数矩阵和压缩比例，对所述目标初始网络层进行压缩，以得到样本模型，其中，压缩比例为大于0小于1的数值，所述样本模型中的、与所述目标初始网络层对应的目标样本网络层中的参数数量小于所述目标初始网络层的初始参数数量，所述初始参数数量是基于所述初始参数矩阵确定的；

第二获取模块503，用于获取样本数据集；

训练模块504，用于根据所述样本数据集，对所述样本模型进行训练，以得到应用在所述样本数据集所属场景下的目标模型。

可选地，所述压缩模块502包括：

可选地，所述第二确定子模块包括：

可选地，所述第一确定子模块包括：

可选地，每一所述客户端本地存储有样本数据集；所述训练模块504包括：

第七确定子模块，用于确定是否满足训练终止条件；

可选地，所述第六确定子模块包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种电子设备的框图。如图6所示，该电子设备600可以包括：处理器601，存储器602。该电子设备600还可以包括多媒体组件603，输入/输出(I/O)接口604，以及通信组件605中的一者或多者。

其中，处理器601用于控制该电子设备600的整体操作，以完成上述的生成模型的方法中的全部或部分步骤。存储器602用于存储各种类型的数据以支持在该电子设备600的操作，这些数据例如可以包括用于在该电子设备600上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器602可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件603可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器602或通过通信组件605发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口604为处理器601和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件605用于该电子设备600与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件605可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的生成模型的方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的生成模型的方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器602，上述程序指令可由电子设备600的处理器601执行以完成上述的生成模型的方法。

图7是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备700可以被提供为一服务器。参照图7，电子设备700包括处理器722，其数量可以为一个或多个，以及存储器732，用于存储可由处理器722执行的计算机程序。存储器732中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器722可以被配置为执行该计算机程序，以执行上述的生成模型的方法。

另外，电子设备700还可以包括电源组件726和通信组件750，该电源组件726可以被配置为执行电子设备700的电源管理，该通信组件750可以被配置为实现电子设备700的通信，例如，有线或无线通信。此外，该电子设备700还可以包括输入/输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统，例如Windows Server^TM，Mac OSX^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的生成模型的方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器732，上述程序指令可由电子设备700的处理器722执行以完成上述的生成模型的方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的生成模型的方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种生成模型的方法，其特征在于，所述方法包括：

获取样本数据集；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标初始网络层的初始参数矩阵和压缩比例，对所述目标初始网络层进行压缩，以得到样本模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标初始网络层的初始参数矩阵和压缩比例，确定用于表征所述压缩后的参数向量与压缩后的虚拟网络参数矩阵之间的映射关系的映射关系矩阵，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标初始网络层的初始参数矩阵和压缩比例，确定压缩后的参数向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述初始模型中的至少一部分网络层采用轻量级网络，其中，所述至少一部分网络层包括：用于提取特征的网络层，和/或，用于解码特征的网络层。

6.根据权利要求1-5中任一项所述方法，其特征在于，所述方法应用于对所述样本模型进行协同训练的多个客户端中的每一客户端。

7.根据权利要求6所述方法，其特征在于，每一所述客户端本地存储有样本数据集；所述根据所述样本数据集，对所述样本模型进行训练，包括：

确定是否满足训练终止条件；

8.根据权利要求7所述方法，其特征在于，所述确定在本轮训练结束时所述样本模型的参数调整向量，包括：

9.根据权利要求1所述方法，其特征在于，所述样本数据集为文本样本数据集，所述目标模型为用于识别文本的文本识别模型。

10.一种生成模型的装置，其特征在于，包括：

第二获取模块，用于获取样本数据集；

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。

12.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-9中任一项所述方法的步骤。