CN111340150A

CN111340150A - 用于对第一分类模型进行训练的方法及装置

Info

Publication number: CN111340150A
Application number: CN202010442269.0A
Authority: CN
Inventors: 马良庄
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-06-26
Anticipated expiration: 2040-05-22
Also published as: CN111340150B

Abstract

本说明书实施例提供了一种用于对第一分类模型进行训练的方法及装置。在该方法的每次循环训练过程中，将来自于第一本地数据的当前训练样本数据提供给第一分类模型和各个第二分类模型，得到第一预测结果和第二预测结果，基于第一预测结果和各个第二预测结果确定当前损失函数，并在不满足循环结束条件时调整第一分类模型，在满足循环结束条件时输出第一分类模型。所述第一本地数据是隐私数据，所述各个第二分类模型是基于第二本地数据预先训练好的，该第二本地数据也是隐私数据。

Description

用于对第一分类模型进行训练的方法及装置

技术领域

本说明书实施例涉及机器学习技术领域，具体地，涉及用于对第一分类模型进行训练的方法及装置。

背景技术

机器学习是一门人工智能科学，主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。机器模型经过训练后可以被应用，比如，NLP（Natural LanguageProcessing，自然语言处理）中常用的分类模型，在经过训练后可以有效地识别自然语言，进而实现人与计算机之间通过自然语言进行有效通信。

模型训练需要大量的训练样本，训练样本会直接影响模型的训练效果。在模型训练过程中，训练样本太少会导致模型不能训练好，或者导致训练出来的模型过拟合。通常来说，模型训练需要大量的训练样本，尤其是结构复杂的大模型，需要训练的模型参数较多，相应地，需要的训练样本的数量也更多。

发明内容

鉴于上述，本说明书实施例提供了一种用于对第一分类模型进行训练的方法及装置。第一分类模型所属的模型训练系统还包括至少一个第二成员设备，来自于各个第二成员设备的第二分类模型是分别利用第二本地数据训练出来的，训练出来的第二分类模型保留了对应的第二本地数据中的共性特征。在对第一分类模型的训练过程中，使用各个第二分类模型来辅助训练第一分类模型，最终训练得到的第一分类模型中也包含各个第二分类模型的共性特征，从而在不公开第二本地数据的情况下实现了将第二本地数据的特征共享给第一分类模型。

根据本说明书实施例的一个方面，提供了一种用于对模型训练系统中的第一成员设备的第一分类模型进行训练的方法，所述模型训练系统包括所述第一成员设备和至少一个第二成员设备，所述方法包括：使用所述第一成员设备的第一本地数据来执行下述循环训练过程，直到满足循环结束条件：将当前训练样本数据分别提供给所述第一成员设备处的第一分类模型以及来自于各个第二成员设备的第二分类模型，以分别得到所述第一分类模型的第一预测结果和各个第二分类模型的第二预测结果；基于所述第一预测结果以及来自各个第二成员设备的第二预测结果，确定当前损失函数；以及在不满足所述循环结束条件时，基于所述当前损失函数来对所述第一分类模型进行调整，在满足所述循环结束条件时，输出所述第一分类模型，其中，来自于各个第二成员设备的第二分类模型是分别利用该第二成员设备处的第二本地数据训练出的。

可选地，在上述方面的一个示例中，所述第二分类模型位于对应的各个第二成员设备处。

可选地，在上述方面的一个示例中，所述第二分类模型是从各个第二成员设备处下载至所述第一成员设备处的模型。

可选地，在上述方面的一个示例中，所述第一分类模型的初始模型是利用所述第一成员设备处的第三本地数据训练好的。

可选地，在上述方面的一个示例中，各个第二成员设备具有用于反映针对第一分类模型的损失函数计算的贡献度的权重，以及基于所述第一预测结果以及来自各个第二成员设备的第二预测结果，确定当前损失函数包括：基于所述第一预测结果以及来自各个第二成员设备的经过加权后的第二预测结果，确定当前损失函数。

可选地，在上述方面的一个示例中，所述权重是基于以下中的至少一种因素来确定的：第二本地数据的数据量级；第二本地数据的特征维度与第一分类模型的模型特征维度的匹配度；和第二分类模型的模型结构规模。

可选地，在上述方面的一个示例中，所述第二本地数据的特征维度与所述第一分类模型的模型特征维度匹配。

可选地，在上述方面的一个示例中，所述第三本地数据的数据量级是适用于小模型训练的数据量级，以及所述第二本地数据的数据量级是适用于大模型训练的数据量级。

可选地，在上述方面的一个示例中，所述第一分类模型和各个第二分类模型包括BERT模型、ULMFiT模型以及Open-AI变换器模型中的一种。

可选地，在上述方面的一个示例中，所述循环结束条件包括以下条件中的至少一种：循环次数；当前损失函数的结果小于第一阈值；和当前损失函数与前一次的损失函数的差值小于第二阈值。

根据本说明书实施例的另一方面，还提供一种用于对模型训练系统中的第一成员设备的第一分类模型进行训练的装置，所述模型训练系统包括所述第一成员设备和至少一个第二成员设备，所述装置包括：训练样本提供单元将当前训练样本数据分别提供给所述第一成员设备处的第一分类模型以及来自于各个第二成员设备的第二分类模型，以分别得到所述第一分类模型的第一预测结果和各个第二分类模型的第二预测结果，其中，来自于各个第二成员设备的第二分类模型是分别利用该第二成员设备处的第二本地数据训练出的，所述第一成员设备的第一本地数据包括所述当前训练样本数据；损失函数确定单元基于所述第一预测结果以及来自各个第二成员设备的第二预测结果，确定当前损失函数；模型调整单元在不满足循环结束条件时，基于所述当前损失函数来对所述第一分类模型进行调整，以及模型输出单元在满足所述循环结束条件时，输出所述第一分类模型。

可选地，在上述方面的一个示例中，各个第二成员设备具有用于反映针对第一分类模型的损失函数计算的贡献度的权重，以及所述损失函数确定单元：基于所述第一预测结果以及来自各个第二成员设备的经过加权后的第二预测结果，确定当前损失函数。

根据本说明书实施例的另一方面，还提供一种电子设备，包括：至少一个处理器；以及存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于对模型训练系统中的第一成员设备的第一分类模型进行训练的方法。

根据本说明书实施例的另一方面，还提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的用于对模型训练系统中的第一成员设备的第一分类模型进行训练的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。附图是用来提供对本说明书实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本说明书的实施例，但并不构成对本说明书的实施例的限制。在附图中：

图1示出了本说明书实施例的模型训练系统的一个示例的示意图。

图2示出了本说明书实施例的用于对模型训练系统中的第一成员设备的第一分类模型进行训练的方法的一个示例的流程图。

图3示出了本说明书实施例的基于第二成员设备的权重来确定当前损失函数的一个示例的示意图。

图4示出了本说明书实施例的用于对模型训练系统中的第一成员设备的第一分类模型进行训练的装置的方框图。

图5示出了本说明书实施例的实现用于对模型训练系统中的第一成员设备的第一分类模型进行训练的方法的电子设备的方框图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

图1示出了本说明书实施例的模型训练系统100的一个示例的示意图。如图1所示，模型训练系统100可以包括第一成员设备110和至少一个第二成员设备120。模型训练系统100中的每个成员设备可以用来训练机器模型，各个成员设备之间可以相互辅助进行模型训练。模型训练系统100中训练的模型可以包括分类模型、回归模型以及聚类模型等，在本说明书实施例中以分类模型为例进行说明。

在本说明书实施例中，分类模型可以包括神经网络、决策树、SVM（Support VectorMachine，支持向量机）、朴素贝叶斯、随机森林、线性回归、逻辑回归以及GBDT（GradientBoosting Decision Tree）等。

模型训练系统100中的每个成员设备可以将训练好的模型存储在本地，每个成员设备可以存储多个模型。成员设备还可以从本地下载训练好的模型，如图1所示，第一成员设备110从本地下载训练好的模型112，第二成员设备120从本地下载训练好的模型122。各个成员设备可以将下载的模型在本地使用，还可以发送给通信连接的客户端设备处使用。

在一个示例中，模型训练系统100可以是一个AI（Artificial Intelligence，人工智能）应用系统，比如，客服系统。该AI应用系统中的各个成员设备可以是对应于不同的企业或部门，各个企业或部门拥有的数据（比如客服数据）是各个成员设备的本地数据，各个成员设备可以使用这些本地数据来训练本地的分类模型。

如图2所示，在块210，将当前训练样本数据分别提供给第一成员设备处的第一分类模型以及来自于各个第二成员设备的第二分类模型，以分别得到第一分类模型的第一预测结果和各个第二分类模型的第二预测结果。

在本说明书实施例中，第一分类模型以及各个第二分类模型可以包括BERT（Bidirectional Encoder Representation from Transformers）模型、ULMFiT模型以及Open-AI变换器模型等模型中的任一种。

图2所示的模型训练过程是使用第一成员设备的第一本地数据来执行的。当前训练样本数据来自于第一本地数据，在一个示例中，当前训练样本数据可以包括所有的第一本地数据。在另一个示例中，当前训练样本数据可以包括部分的第一本地数据。

在本说明书实施例中，来自于各个第二成员设备的第二分类模型是分别利用该第二成员设备处的第二本地数据训练出的。

各个第二成员设备处的第二本地数据与第一本地数据存在差异，各个第二成员设备处的第二本地数据之间也存在差异。

以图1为例，模型训练系统包括两个第二成员设备，其中一个第二成员设备处的第二本地数据是本地数据a，该第二成员设备处的模型以下称为分类模型a。另一个第二成员设备处的第二本地数据是本地数据b，该另一个第二成员设备处的模型以下称为分类模型b。使用本地数据a来训练分类模型a，使用本地数据b来训练分类模型b。本地数据a与本地数据b不同，训练出的分类模型a和分类模型b也不同。

在一个示例中，第二本地数据和第一本地数据都是隐私数据。例如，模型训练系统由各个金融企业构成，各个金融企业的成员设备本地存储有大量的客服数据，这些客服数据作为隐私数据不能向其他金融企业公开。各个成员设备可以通过问句和知识点的对应关系来存储客服数据，各个成员设备本地存储的客服数据不同，比如，用户问句与知识点的对应关系不同，知识点标题不同，以及知识点内容不同等。

在一个示例中，模型训练系统中的各个第二分类模型的模型结构可以相同，比如，各个第二分类模型都是神经网络，各个第二分类模型的神经网络具有相同的网络层数以及相同数量的神经元。

在另一个示例中，模型训练系统中的各个第二分类模型的模型结构可以不同。模型结构的不同可以包括模型类型不同，比如，有的第二分类模型是神经网络，有的第二分类模型采用决策树、逻辑回归等其他类型的模型。模型结构的不同还可以是包括模型参数不同，比如，各个第二分类模型都是神经网络，有的第二分类模型的神经网络是单隐层网络，有的第二分类模型的神经网络是多隐层网络。

在该示例中，模型训练系统中的各个第二分类模型的模型结构可以都不同，还可以是部分第二分类模型的模型结构不同。

第一分类模型的第一预测结果可以是针对第一分类模型的模型特征维度的预测概率值，第二分类模型的第二预测结果可以是针对第二分类模型的模型特征维度的预测概率值。其中，第一分类模型的模型特征维度和第二分类模型的模型特征维度可以相同。

例如，第一分类模型的模型特征包括知识点1、知识点2和知识点3，第二分类模型的模型特征也包括知识点1、知识点2和知识点3，针对文本问题a，第一分类模型输出的第一预测结果是[0.7，0.2，0.1]，第二分类模型输出的第二预测结果是[0.98，0.01，0.01]，第一预测结果和第二预测结果的特征维度依次为知识点1、知识点2和知识点3。

在本说明书实施例的一个示例中，第二分类模型位于对应的各个第二成员设备处。此时，第一成员设备可以将当前训练样本数据分别提供给位于各个第二成员设备处的第二分类模型。在向各个第二分类模型提供当前训练样本数据的过程中，仅需对当前训练样本数据进行传输，便于操作，从而提高模型训练的效率。

此外，在提供当前训练样本数据前，还可以对当前训练样本数据进行加密处理，以避免泄漏当前训练样本数据。其中，加密的方式可以包括但并不限于同态加密、对称加密、非对称加密等。

在本说明书实施例的另一个示例中，第二分类模型是从各个第二成员设备处下载至第一成员设备处的模型。具体地，在对第一分类模型进行模型训练之前，可以先从各个第二成员设备处下载第二分类模型，并将下载的第二分类模型存储在第一成员设备本地，当进行模型训练时，从第一成员设备本地获取当前训练样本数据后，可以直接在本地提供给第一分类模型和第二分类模型。

在该示例的训练过程中，提供给各个第二分类模型的训练样本数据始终保持在第一成员设备本地，降低训练样本数据泄漏的风险，从而提高数据安全。

在本说明书实施例的一个示例中，第一分类模型的初始模型是利用第一成员设备处的第三本地数据训练好的。第一分类模型的初始模型在经过训练后再使用第二分类模型辅助继续进行训练，不仅可以共享第二本地数据中的共性特征，而且因为第一分类模型的初始模型是训练好了的，这样可以更快地达到循环结束条件，减少模型训练过程中的循环迭代次数，从而提高模型训练效率。

在该示例中，第三本地数据与各个第二成员设备处的第二本地数据可以都不同。此外，第三本地数据还可以与第一本地数据不同，此处的不同可以包括以下三种情况：第三本地数据是第一本地数据中的一部分数据，第三本地数据包括除了全部或部分的第一本地数据以外的其他数据，以及第三本地数据与第一本地数据之间不存在相同的数据。此外，第三本地数据可以与第一本地数据完全相同。

在一个示例中，第三本地数据的数据量级与第二本地数据的数据量级可以相同，例如，第三本地数据和各个第二本地数据都是百万量级的数据。

此外，第三本地数据的数据量级与第二本地数据的数据量级也可以不同。例如，第三本地数据的数据量级小于第二本地数据的数据量级，第三本地数据的数据量级是适用于小模型训练的数据量级，第二本地数据的数据量级是适用于大模型训练的数据量级。这样，在利用第二分类模型来辅助对第一分类模型进行模型训练时可以使得第一分类模型共享更多的第二本地数据的共性特征，从而提升了模型训练效果。

这里的小模型可以是指模型结构较简单，而大模型可以是指模型结构较复杂，比如，小模型是双层神经网络结构，大模型是10层神经网络结构。训练小模型所需的训练样本数量较少，而训练大模型所需的训练样本数量较多，比如，第三本地数据是十万量级，用于训练小模型，第二本地数据是千万量级，用于训练大模型。

此外，第一分类模型的初始模型是未经过训练的模型，也就是说，在当前训练样本数据首次提供给第一分类模型时，此时的第一分类模型是未经过训练的。

在本说明书实施例的一个示例中，第二本地数据的特征维度与第一分类模型的模型特征维度匹配，使得第二本地数据与第一本地数据具有关联性。基于该关联性，使得利用第二本地数据训练出的第二分类模型可以用来辅助训练第一分类模型，从而达到了数据共享的目的。

第二本地数据的特征维度至少包括第一分类模型的模型特征维度。在一个示例中，第二本地数据的特征维度与第一分类模型的模型特征维度相同，第二本地数据的特征维度是第二分类模型通过训练学习到的共性特征，这些共性特征可以通过第二分类模型来辅助训练第一分类模型。例如，第二本地数据是客服数据，第二本地数据的特征维度包括用户问句、知识点、标题和时间戳，第一分类模型的模型特征维度也包括用户问句、知识点、标题和时间戳。训练好的第一分类模型可以根据用户提出的问题来输出相应的知识点。

在另一个示例中，第二本地数据的特征维度除了包括第一分类模型的模型特征维度以外，还可以包括其他特征维度。使用第二本地数据训练出的第二分类模型的模型特征维度包括第二本地数据的特征维度，在利用第二分类模型辅助训练第一分类模型时，可以仅利用第二本地数据的特征维度中与第一分类模型的模型特征相同的特征来对第一分类模型进行模型训练。

在块220，基于第一预测结果以及来自各个第二成员设备的第二预测结果，确定当前损失函数。

在本说明书实施例中，当前损失函数可以通过交叉熵损失函数、KL（KullbackLeibler）散度、Hinge损失函数、对数损失函数、平方损失函数、感知损失函数以及0-1损失函数等损失函数中的任一种来计算出。

每个分类模型根据训练样本数据的真实标签来计算输出的预测结果对应的损失函数。以第一分类模型为例，第一分类模型可以利用以下交叉熵损失函数公式来计算当前输出的第一预测结果的第一损失函数：

其中，n表示第一分类模型的模型特征维度，

表示第i个模型特征，

表示真实标签的概率分布，

表示预测结果的概率分布，

表示预测结果与真实标签之间的差异，该差异即第一损失函数。

其他各个第二分类模型也可以按照上述方式来计算输出的第二预测结果对应的第二损失函数。

在得到第一分类模型的第一损失函数以及各个第二分类模型的第二损失函数后，可以基于第一损失函数以及各个第二损失函数来确定当前损失函数。在一个示例中，可以将第一损失函数以及各个第二损失函数的和确定为当前损失函数。

在另一个示例中，第一分类模型以及各个第二分类模型具有权重，可以将第一损失函数与第一权重（即，第一分类模型的权重）的乘积，以及各个第二损失函数与对应第二权重（即，各个第二分类模型的权重）的乘积的和确定为当前损失函数。

在该示例中，第一权重与各个第二权重可以相同，也可以不同。权重可以用来表示分类模型在模型训练中的重要程度，分类模型的权重越大，则该分类模型在模型训练中起的作用越大，最后训练好的第一分类模型的模型特征也会更接近于该分类模型。当第一分类模型的权重最大时，最后训练好的第一分类模型的模型特征更接近于第一本地数据的特征。

在本说明书实施例的一个示例中，各个第二成员设备具有用于反映针对第一分类模型的损失函数计算的贡献度的权重。第二成员设备对应的权重越大，则该第二成员设备对第一分类模型的损失函数计算的贡献度越大。第二成员设备的贡献度越大，则最终训练好的第一分类模型的模型特征会越偏向于该第二成员设备的模型特征。在该示例中，可以基于第一预测结果以及来自各个第二成员设备的经过加权后的第二预测结果，确定当前损失函数。

如图3所示，当前训练样本数据被分别提供给第一分类模型和第二分类模型之后，第一分类模型和第二分类模型分别输出第一预测结果和第二预测结果。

第二分类模型将输出的第二预测结果输入给加权处理模块，加权处理模块对第二预测结果进行加权处理。具体地，将第二预测结果中各个概率值除以该第二分类模型对应的权重，以减小各个概率值之间的差距，从而放大小概率值分量所携带的信息，进而提升小概率值的特征在模型训练中的作用。例如，第二预测结果是[0.8，0.1，0.1]，权重是10，经过加权处理后的第二预测结果是[0.08，0.01，0.01]。

经过加权处理后的第二预测结果经过softmax层输出给第二损失函数计算模块。

第一分类模型的输出路径包括至少两条，一条输出路径是将第一预测结果输入给加权处理模块，加权处理模块对第一预测结果进行加权处理，经过加权处理后的第一预测结果经过softmax层输出给第二损失函数计算模块。第二损失函数计算模块在接收到经过加权处理后的第一预测结果和第二预测结果后可以基于所接收到的第一预测结果和第二预测结果来计算第二损失函数，并将该第二损失函数发送给当前损失函数计算模块。

另一条输出路径是将第一分类模型的第一预测结果输出给softmax层，再由softmax层输出给第一损失函数计算模块，第一损失函数计算模块可以基于第一预测结果计算相应的第一损失函数，再将第一损失函数发送给当前损失函数计算模块。当前损失函数计算模块再基于所接收到的第一损失函数和第二损失函数来确定当前损失函数。

在图3所示的示例中，第一损失函数计算模块和第二损失函数计算模块可以是一个计算模块，该计算模块可以分别计算第一损失函数和第二损失函数。

在本说明书实施例的一个示例中，各个第二成员设备的权重可以基于第二本地数据的数据量、第二本地数据的特征维度与第一分类模型的模型特征维度的匹配度、以及第二分类模型的模型结构规模等因素中的至少一个来确定。

具体地，第二本地数据的数据量越大，则对应第二成员设备的权重可以越大。第二分类模型的模型结构规模越大越复杂，则对应第二成员设备的权重可以越大。第二本地数据的特征维度与第一分类模型的模型特征维度的匹配度越高，则对应第二成员设备的权重可以越大，比如，当第二本地数据的特征维度与第一分类模型的模型特征维度的相同时，匹配度最高，此时权重可以设置的较高。

此外，各个第二成员设备的权重也可以是指定的。

在块230，判断是否满足循环结束条件。如果不满足循环结束条件，执行块240的步骤，如果满足循环结束条件，执行块250的步骤。

在本说明书实施例的一个示例中，循环结束条件可以包括循环次数、当前损失函数的结果小于第一阈值以及当前损失函数与前一次的损失函数的差值小于第二阈值等条件中的至少一种。

其中，循环次数、第一阈值和第二阈值都可以是指定的。当循环结束条件包括至少两个条件时，只要满足其中的至少一个条件，即确定满足循环结束条件。

在块240，基于当前损失函数来对第一分类模型进行调整。

调整后的第一分类模型继续进行模型训练，后一次模型训练中使用的训练样本数据可以与前一次使用的训练样本数据相同，例如，每一次训练过程中使用的当前训练样本数据是第一本地数据。

此外，后一次模型训练中使用的训练样本数据可以与前一次使用的训练样本数据不同，例如，第一本地数据分成两部分：第一部分样本数据和第二部分样本数据，前一次训练过程中使用第一部分样本数据，则后一次训练过程中使用第二部分样本数据。

在块250，输出第一分类模型。输出的第一分类模型可以存储在第一成员设备本地，便于第一分类模型能够从第一成员设备处下载以被应用。

图4示出了本说明书实施例的用于对模型训练系统中的第一成员设备的第一分类模型进行训练的装置（以下简称为模型训练装置400）的方框图。如图4所示，模型训练装置400包括训练样本提供单元410、损失函数确定单元420、模型调整单元430和模型输出单元440。此外，模型训练系统可以包括第一成员设备和至少一个第二成员设备。

训练样本提供单元410被配置为将当前训练样本数据分别提供给第一成员设备处的第一分类模型以及来自于各个第二成员设备的第二分类模型，以分别得到第一分类模型的第一预测结果和各个第二分类模型的第二预测结果，其中，来自于各个第二成员设备的第二分类模型是分别利用该第二成员设备处的第二本地数据训练出的，第一成员设备的第一本地数据包括当前训练样本数据。

在一个示例中，第二分类模型位于对应的各个第二成员设备处。在另一个示例中，第二分类模型是从各个第二成员设备处下载至第一成员设备处的模型。

在一个示例中，第一分类模型的初始模型可以是利用第一成员设备处的第三本地数据训练好的。在一个示例中，第三本地数据的数据量级是适用于小模型训练的数据量级，以及第二本地数据的数据量级是适用于大模型训练的数据量级。在一个示例中，第二本地数据的特征维度与第一分类模型的模型特征维度匹配。

损失函数确定单元420被配置为基于第一预测结果以及来自各个第二成员设备的第二预测结果，确定当前损失函数。

在一个示例中，各个第二成员设备具有用于反映针对第一分类模型的损失函数计算的贡献度的权重，以及损失函数确定单元420被配置为基于第一预测结果以及来自各个第二成员设备的经过加权后的第二预测结果，确定当前损失函数。

在一个示例中，权重可以是基于以下中的至少一种因素来确定的：第二本地数据的数据量级；第二本地数据的特征维度与第一分类模型的模型特征维度的匹配度；和第二分类模型的模型结构规模。

模型调整单元430被配置为在不满足循环结束条件时，基于当前损失函数来对第一分类模型进行调整。

模型输出单元440被配置为在满足循环结束条件时，输出第一分类模型。

以上参照图1到图4，对根据本说明书实施例的用于对模型训练系统中的第一成员设备的第一分类模型进行训练的方法及装置的实施例进行了描述。

本说明书实施例的用于对模型训练系统中的第一成员设备的第一分类模型进行训练的装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中，用于对模型训练系统中的第一成员设备的第一分类模型进行训练的装置例如可以利用电子设备实现。

图5示出了本说明书实施例的实现用于对模型训练系统中的第一成员设备的第一分类模型进行训练的方法的电子设备500的方框图。

如图5所示，电子设备500可以包括至少一个处理器510、存储器（例如，非易失性存储器）520、内存530和通信接口540，并且至少一个处理器510、存储器520、内存530和通信接口540经由总线550连接在一起。至少一个处理器510执行在存储器中存储或编码的至少一个计算机可读指令（即，上述以软件形式实现的元素）。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器510：使用第一成员设备的第一本地数据来执行下述循环训练过程，直到满足循环结束条件：将当前训练样本数据分别提供给第一成员设备处的第一分类模型以及来自于各个第二成员设备的第二分类模型，以分别得到第一分类模型的第一预测结果和各个第二分类模型的第二预测结果；基于第一预测结果以及来自各个第二成员设备的第二预测结果，确定当前损失函数；以及在不满足循环结束条件时，基于当前损失函数来对第一分类模型进行调整，在满足循环结束条件时，输出第一分类模型，其中，来自于各个第二成员设备的第二分类模型是分别利用该第二成员设备处的第二本地数据训练出的。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器510进行本说明书的各个实施例中以上结合图1-4描述的各种操作和功能。

根据一个实施例，提供了一种例如机器可读介质的程序产品。机器可读介质可以具有指令（即，上述以软件形式实现的元素），该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-4描述的各种操作和功能。

具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书实施例的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本说明书的实施例的可选实施方式，但是，本说明书的实施例并不限于上述实施方式中的具体细节，在本说明书的实施例的技术构思范围内，可以对本说明书的实施例的技术方案进行多种简单变型，这些简单变型均属于本说明书的实施例的保护范围。

本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说，对本说明书内容进行的各种修改是显而易见的，并且，也可以在不脱离本说明书内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本说明书内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于对模型训练系统中的第一成员设备的第一分类模型进行训练的方法，所述模型训练系统包括所述第一成员设备和至少一个第二成员设备，所述方法包括：

使用所述第一成员设备的第一本地数据来执行下述循环训练过程，直到满足循环结束条件：

将当前训练样本数据分别提供给所述第一成员设备处的第一分类模型以及来自于各个第二成员设备的第二分类模型，以分别得到所述第一分类模型的第一预测结果和各个第二分类模型的第二预测结果；

基于所述第一预测结果以及来自各个第二成员设备的第二预测结果，确定当前损失函数；以及

在不满足所述循环结束条件时，基于所述当前损失函数来对所述第一分类模型进行调整，

在满足所述循环结束条件时，输出所述第一分类模型，

其中，来自于各个第二成员设备的第二分类模型是分别利用该第二成员设备处的第二本地数据训练出的。

2.如权利要求1所述的方法，其中，所述第二分类模型位于对应的各个第二成员设备处。

3.如权利要求1所述的方法，其中，所述第二分类模型是从各个第二成员设备处下载至所述第一成员设备处的模型。

4.如权利要求1所述的方法，其中，所述第一分类模型的初始模型是利用所述第一成员设备处的第三本地数据训练好的。

5.如权利要求1所述的方法，其中，各个第二成员设备具有用于反映针对第一分类模型的损失函数计算的贡献度的权重，以及

基于所述第一预测结果以及来自各个第二成员设备的第二预测结果，确定当前损失函数包括：

基于所述第一预测结果以及来自各个第二成员设备的经过加权后的第二预测结果，确定当前损失函数。

6.如权利要求5所述的方法，其中，所述权重是基于以下中的至少一种因素来确定的：

第二本地数据的数据量级；

第二本地数据的特征维度与第一分类模型的模型特征维度的匹配度；和

第二分类模型的模型结构规模。

7.如权利要求1所述的方法，其中，所述第二本地数据的特征维度与所述第一分类模型的模型特征维度匹配。

8.如权利要求4所述的方法，其中，所述第三本地数据的数据量级是适用于小模型训练的数据量级，以及所述第二本地数据的数据量级是适用于大模型训练的数据量级。

9.如权利要求1所述的方法，其中，所述第一分类模型和各个第二分类模型包括BERT模型、ULMFiT模型以及Open-AI变换器模型中的一种。

10.如权利要求1所述的方法，其中，所述循环结束条件包括以下条件中的至少一种：

循环次数；

当前损失函数的结果小于第一阈值；和

当前损失函数与前一次的损失函数的差值小于第二阈值。

11.一种用于对模型训练系统中的第一成员设备的第一分类模型进行训练的装置，所述模型训练系统包括所述第一成员设备和至少一个第二成员设备，所述装置包括：

训练样本提供单元，将当前训练样本数据分别提供给所述第一成员设备处的第一分类模型以及来自于各个第二成员设备的第二分类模型，以分别得到所述第一分类模型的第一预测结果和各个第二分类模型的第二预测结果，其中，来自于各个第二成员设备的第二分类模型是分别利用该第二成员设备处的第二本地数据训练出的，所述第一成员设备的第一本地数据包括所述当前训练样本数据；

损失函数确定单元，基于所述第一预测结果以及来自各个第二成员设备的第二预测结果，确定当前损失函数；

模型调整单元，在不满足循环结束条件时，基于所述当前损失函数来对所述第一分类模型进行调整，以及

模型输出单元，在满足所述循环结束条件时，输出所述第一分类模型。

12.如权利要求11所述的装置，其中，所述第二分类模型位于对应的各个第二成员设备处。

13.如权利要求11所述的装置，其中，所述第二分类模型是从各个第二成员设备处下载至所述第一成员设备处的模型。

14.如权利要求11所述的装置，其中，所述第一分类模型的初始模型是利用所述第一成员设备处的第三本地数据训练好的。

15.如权利要求11所述的装置，其中，各个第二成员设备具有用于反映针对第一分类模型的损失函数计算的贡献度的权重，以及

所述损失函数确定单元：

16.如权利要求15所述的装置，其中，所述权重是基于以下中的至少一种因素来确定的：

第二本地数据的数据量级；

第二分类模型的模型结构规模。

17.如权利要求11所述的装置，其中，所述第二本地数据的特征维度与所述第一分类模型的模型特征维度匹配。

18.如权利要求14所述的装置，其中，所述第三本地数据的数据量级是适用于小模型训练的数据量级，以及所述第二本地数据的数据量级是适用于大模型训练的数据量级。

19.一种电子设备，包括：

至少一个处理器，以及

与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1到10中任一所述的方法。

20.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到10中任一所述的方法。