CN111191722B

CN111191722B - 通过计算机训练预测模型的方法及装置

Info

Publication number: CN111191722B
Application number: CN201911395996.XA
Authority: CN
Inventors: 蒋亮; 温祖杰; 梁忠平; 张家兴
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2022-08-09
Anticipated expiration: 2039-12-30
Also published as: CN111191722A

Abstract

本说明书实施例提供一种通过计算机训练预测模型的方法和装置，可以将较前周期状态下的预测模型，作为较后周期的预测模型的老师模型，仅需要老师模型的历史概率分布，和样本标签一起为模型参数的调整指引方向。由于每个训练周期中，各个状态下的输入样本都随机抽取，如果当前训练周期当前状态下输入的当前样本有多个，则这多个样本可以携带有历史训练周期中不同状态下的模型参数信息，相当于同时向多个老师模型学习，加快学习效率，提升模型学习效果。同时，存储的数据仅为各个样本在相关历史周期的概率分布，以较低的计算成本和存储成本，达到同时向多个老师模型学习的效果，可以提高模型训练的有效性。

Description

通过计算机训练预测模型的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及通过计算机训练预测模型的方法及装置。

背景技术

深度神经网络在计算机视觉、自然语言处理等等领域具有远超过传统方法的效果，成为人工智能领域较常用的方法。通常来讲，神经网络的深度越深，期望的预测效果越好。但深度神经网络的训练存在过拟合、梯度消失、训练震荡等问题，使其用普通的梯度下降优化方法难以达到非常好的预测效果。很多工作证明在训练过程中老师-学生模型对提升神经网络的效果有很大帮助。具体做法为将前面训练过程的模型作为后面训练过程的老师，用于指导后面的训练过程，从而使训练过程更稳定，提升神经网络的效果。

常规技术的老师-学生模型(Teacher-Student Framework)中，学生模型是最终需要的目标神经网络模型，老师模型是另外一个训练好的神经网络，在用训练数据对学生模型的训练过程中，老师模型对训练数据做出自己的预测输出，这些预测输出用于指导学生模型的训练，因此学生模型在训练过程中不仅要学会预测样本正确的标签，还要是自己输出的概率分布和老师模型的尽可能相似。训练过程中老师模型的参数保持不变，学生模型的参数会进行调整。

为了提高准确度，常规技术还通过学生模型向多个老师模型学习的方式进行模型训练。由于在一个训练过程中要向多个老师模型学习，需要存储所有老师模型的参数，以及在每个样本训练的时候，都需要计算所有老师模型预测的概率分布。当老师模型数量较大，或者训练样本较多时，存储空间开销和计算时间成本都会大大增加。

发明内容

本说明书一个或多个实施例描述了一种为预测模型生成样本、预测模型训练的方法及装置，可以利用用户在意图识别场景中的选择数据，生成预测模型的训练样本。

根据第一方面，提供了一种通过计算机训练预测模型的方法，所述预测模型用于对业务数据进行处理，确定所述业务数据对应到预先确定的各个类别上的概率，以对所述业务数据进行分类操作，所述预测模型训练过程包括多个训练周期，各个训练周期对所有训练样本按照随机顺序进行遍历，其中，针对当前训练周期中的当前样本，所述方法包括：将所述当前样本的特征数据输入所述预测模型，得到所述预测模型对所述当前样本预测的当前概率分布，所述当前概率分布描述所述当前样本在各个类别上分别对应的各个当前预测概率；根据所述当前样本对应的样本标签，以及各个当前预测概率，向损失函数的值减小的方向，确定对模型参数的第一调节指标；获取所述当前训练周期之前的若干训练周期中，所述当前样本的历史概率分布，所述历史概率分布用于描述针对所述当前样本在所述若干训练周期中各个类别上分别对应的各个历史预测概率；利用所述历史概率分布与所述当前概率分布的对比，确定对模型参数的第二调节指标；基于所述第一调节指标和所述第二调节指标，调整模型参数，以训练所述预测模型。

在一个实施例中，所述当前样本包括预定数量的训练样本，所述模型参数包括第一模型参数，所述第一模型参数在所述第一调节指标中对应第一调节量值；所述根据所述当前样本对应的样本标签，以及各个当前预测概率，向损失函数的值减小的方向，确定对模型参数的第一调节指标包括：针对所述预定数量的训练样本中的各个训练样本，向损失函数的值减小的方向，分别确定对所述第一模型参数的各个调节量值；将各个调节量值的平均值作为所述第一调节量值。

在一个实施例中，所述获取所述当前训练周期之前的若干训练周期中，所述当前样本的历史概率分布包括：对所述若干训练周期中，所述当前样本分别对应的各个概率分布取平均，得到的概率分布作为所述历史概率分布。

在一个实施例中，所述利用所述历史概率分布与所述当前概率分布的对比，确定对模型参数的第二调节指标包括：确定所述历史概率分布与所述当前概率分布的差异参数，所述差异参数包括以下中的一种：KL散度、交叉熵、JS 散度、方差；利用所述差异参数确定所述第二调节指标。

在一个实施例中，所述当前样本包括预定数量的训练样本，所述确定所述历史概率分布与所述当前概率分布的差异参数包括：针对所述预定数量的训练样本中的各个训练样本，分别确定相应历史概率分布与相应当前概率分布的各个差异参数；将各个差异参数的平均值作为所述历史概率分布与所述当前概率分布的差异参数。

在一个实施例中，所述当前样本包括预定数量的训练样本，所述预定数量的训练样本中的各个训练样本，分别对应各个差异参数，所述利用所述差异参数确定所述第二调节指标包括：利用各个差异参数，分别确定对所述模型参数的各个调节指标；将各个调节指标的平均值作为所述第二调节指标。

在一个实施例中，所述基于所述第一调节指标和所述第二调节指标，调整模型参数包括：利用以下中的一项调整模型参数：所述第一调节指标与所述第二调节指标的和；所述第一调节指标与所述第二调节指标的加权和。

根据第二方面，提供一种训练预测模型的装置，所述预测模型用于对业务数据进行处理，确定所述业务数据对应到预先确定的各个类别上的概率，以对所述业务数据进行分类操作，所述预测模型训练过程包括多个训练周期，各个训练周期对所有训练样本按照随机顺序进行遍历，其中，针对当前训练周期中的当前样本，所述装置包括：

预测单元，配置为将所述当前样本的特征数据输入所述预测模型，得到所述预测模型对所述当前样本预测的当前概率分布，所述当前概率分布描述所述当前样本在各个类别上分别对应的各个当前预测概率；

第一确定单元，配置为根据所述当前样本对应的样本标签，以及各个当前预测概率，向损失函数的值减小的方向，确定对模型参数的第一调节指标；

获取单元，配置为获取所述当前训练周期之前的若干训练周期中，所述当前样本的历史概率分布，所述历史概率分布用于描述针对所述当前样本在所述若干训练周期中各个类别上分别对应的各个历史预测概率；

第二确定单元，配置为利用所述历史概率分布与所述当前概率分布的对比，确定对模型参数的第二调节指标；

调整单元，配置为基于所述第一调节指标和所述第二调节指标，调整模型参数，以训练所述预测模型。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的训练预测模型的方法和装置，在模型训练过程中，分为多训练周期进行，每个训练周期随机排列样本输入顺序。如此，可以将较前周期状态下的预测模型，作为较后周期的预测模型的老师模型，和样本标签一起为模型参数的调整指引方向。由于每个训练周期中，各个状态下的输入样本都随机抽取，如果当前训练周期当前状态下输入的当前样本有多个，则这多个样本可以携带有历史训练周期中不同状态下的模型参数信息，相当于同时向多个老师模型学习，加快学习效率，提升模型学习效果。同时，较后的训练周期仅需要各个样本在较前周期的概率分布，以较低的计算时间成本和存储空间成本，达到同时向多个老师模型学习的效果，从而提高模型训练的有效性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的通过计算机训练预测模型的方法流程图；

图3示出一个具体例子的预测模型的预测过程示意图；

图4示出根据一个实施例的通过计算机训练预测模型的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

为了便于说明，结合图1示出的本说明书实施例的一个具体适用场景进行描述。图1为本说明书披露的一个实施例的实施场景示意图。在该实施场景中，预测模型通过N个训练样本进行训练，训练过程分为多个训练周期。每个训练样本对应有特征数据和样本标签。预测模型可以通过特征数据，得到相应样本在各个类别上的分布概率。在每个训练周期，对N个训练样本进行随机取样，以消除样本输入顺序对模型训练结果的影响。每个训练周期分为多步进行，每步中输入预测模型n个训练样本，调整模型参数，下一步再输入其他训练样本中的n个训练样本，调整模型参数……直至遍历N个训练样本，n可以是大于0小于N的自然数，如1、10等等。可以理解，在每个训练周期最后一步输入的样本数量也可以是小于n的自然数，例如N＝10009， n＝10，最后一次输入预测模型的训练样本数为9，小于n。在各个训练周期，重复以上过程。

图1中，第s周期和第r周期是对预测模型训练过程中的两个训练周期。第s周期是较第r周期靠前的周期。第s周期和第r周期可以相邻也可以不相邻。在第s周期，可以记录各个训练样本经过预测模型在各个类别上预测的概率，并可以作为第r周期的老师数据，对第r周期的模型训练过程产生影响。

可以理解，记录每个样本对应的概率分布实际上相当于记录了对应网络参数的信息。而由于网络的参数是不断调整的，所以每一步训练中，输入一个样本时，对应的当前模型参数是不同的。当一个训练周期结束之后，就利用样本的概率分布记录下了这个周期每个时刻对应网络参数的信息。在后一个周期中，由于样本会被重新随机抽样，所以每一步抽样的n个样本对应了前一周期不同时刻的网络参数。因此每一步的训练过程都在同时向多个老师学习，从而达到更好的效果。同时，由于每次都只需要在训练时记录概率分布，因此不会带来过多的存储空间成本和计算时间成本。

下面详细介绍通过计算机训练预测模型的方法。

图2示出根据一个实施例的训练预测模型的方法流程图。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器。预测模型用于在具体的业务处理场景中，根据接收的业务数据，提取相应特征、并预测当前业务数据对应到预先确定的多个类别的各个类别上的概率。从而对当前业务数据进行分类操作。这里的业务数据例如可以是历史浏览数据、历史点击数据、地理位置信息、键盘敲击习惯数据、历史消费数据、历史借贷还款数据，等等。提取的相应特征例如是浏览量特征、点击率特征、位置特征、键盘压力特征、消费倾向品类特征、还款是否及时特征，等等。预先确定的多个类别例如是多个偏好类别：新闻、体育、娱乐、健身等等，多个消费喜好类别：服装、日用品等等。

参考图1所示，预测模型训练过程可以包括多个训练周期，各个训练周期对所有训练样本按照随机顺序进行遍历。

在图2中，针对当前训练周期中的当前样本，该训练预测模型的方法可以包括以下步骤：步骤201，将当前样本的特征数据输入预测模型，得到预测模型对当前样本预测的当前概率分布，当前概率分布描述当前样本在各个类别上分别对应的各个当前预测概率；步骤202，根据当前样本对应的样本标签，以及各个当前预测概率，向损失函数的值减小的方向，确定对模型参数的第一调节指标；步骤203，获取当前训练周期之前的若干训练周期中，当前样本的历史概率分布，历史概率分布用于描述针对当前样本在历史周期中各个类别上分别对应的各个历史预测概率；步骤204，利用历史概率分布与当前概率分布的对比，确定对模型参数的第二调节指标；步骤205，基于第一调节指标和第二调节指标，调整模型参数，以训练预测模型。

首先，在步骤201中，将当前样本的特征数据输入预测模型，得到预测模型对当前样本预测的当前概率分布，当前概率分布描述当前样本在各个类别上分别对应的各个当前预测概率。其中，当前样本可以是对应于当前状态的预测模型输入的样本，例如图1示出的实施场景中的n个样本，由于每步中输入n个训练样本，每步调整一次模型参数，每步输入的n个样本对应的预测模型的状态是一致的。在调整模型参数时，这n个样本可以同时考虑。

在本说明书实施例中，当前样本可以是一个样本，也可以是多个样本。在当前样本是多个训练样本时，可以将各个样本的特征数据依次输入正在训练的预测模型，并由当前的预测模型得到对相应样本预测的当前概率分布。其中，预测模型的输出结果可以是相应样本在各个类别上对应的各个预测概率，也可以是对应于预测概率最大的类别的数值，在此不做限定。

作为一个示例，如图3所示，假设预测模型是神经网络结构，可以预测业务数据在3个类别中对应到的一个类别。通常，针对一个训练样本，预测模型输入层各个神经元分别接收训练样本的各个特征值，并经过隐层处理，在最后一个隐层得到基于对各个特征值的处理将训练样本分类到各个类别的概率，该隐层也可以称为概率层。各个具体的概率值，可以构成对当前样本预测的当前概率分布，如(0.6，0.3，0.1)，0.6、0.3、0.1分别对应到各个类别上的概率。预测模型的输出结果通常可以是当前概率分布中最大概率对应的类别。例如在类别1、类别2、类别3上的概率分布为(0.6，0.3，0.1)，输出结果为1，对应到类别1。

在当前样本包括多个训练样本的情况下，每个训练样本可以对应一个概率分布。

值得说明的是，在本说明书实施例中，预测模型可以是梯度提升决策树、卷积神经网络、全连接神经网络等等中的任意一种可以得到概率分布的网络，在此不做限定。当前样本的当前概率分布在一定程度上反映了当前状态下的预测模型中的参数，因此，可以记录为当前样本预测的当前概率分布，用于描述预测模型的当前状态信息，为后续周期中对相同样本预测的概率分布作参考。

接着，在步骤202，根据当前样本对应的样本标签，以及各个当前预测概率，向损失函数的值减小的方向，确定对模型参数的第一调节指标。

可以理解，损失函数(loss function)也可以称为代价函数(cost function)，可以将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的量化表示。在模型训练过程中，损失函数通常通过模型参数来描述，通过当前模型参数值，可以求解当前损失函数的值。通常通过最小化损失函数来调整模型参数。损失函数例如是当前预测值减去样本标签对应的概率分布(如1，0，0)的形式，由于当前预测值可以由样本特征 (确定值)和模型参数(可调整变量)来描述，样本标签是确定的，因此，最小化损失函数的过程就是调整模型参数的过程。该过程可以针对每个模型参数确定出相应的第一调节指标。模型参数有多个时，第一调节指标可以表达为向量形式，如(0.01，-0.003，0.05……)，也可以表示为数组形式，如 [0.01，-0.003，0.05……]，本说明书对相应表达形式不做限定。

在当前样本包括多个训练样本的情况下，可以利用在这多个训练样本下，损失函数的均值来确定第一调节指标。也可以对每个训练样本确定一个调节指标，各个调节指标的均值为第一调节指标。这里，调节指标可以通过向量、数组等形式来表示，在此不作限定。调节指标中的各个元素可以时对相应模型参数的调节量值。例如调节指标中第一位置的元素可以是对第一模型参数的第一调节量值。

然后，通过步骤203，获取当前训练周期之前的若干训练周期中，当前样本的历史概率分布。可以理解，若干训练周期可以是一个训练周期，也可以是多个训练周期。该若干训练周期是在当前训练周期之前的任意训练周期。例如，假设当前训练周期为第s周期，该若干训练周期可以是，当前训练周期的前一个训练周期(第s-1周期)、与当前训练周期间隔m个周期的训练周期(m大于1，第s-m周期)、指定的固定训练周期(如第1周期)、对应与当前训练周期间隔m个周期的训练周期的连续多个周期(如第s-m-3周期至第s-m周期)、与当前周期每间隔预定个(如2个)周期的多个训练周期(如第s-2周期、第s-4周期……等等)，等等。

历史概率分布用于描述针对当前样本在上述若干训练周期中各个类别上分别对应的各个历史预测概率。在上述若干周期为一个周期的情况下，这里的历史概率分布可以是该一个周期中，对当前样本在各个类别上分别对应的各个预测概率，如前述的(0.6，0.3，0.1)。在上述若干周期为多个周期的情况下，当前样本的历史概率分布可以是这若干周期中，对当前样本在各个类别上分别对应的各个预测概率的平均值。例如，当前训练周期为第s周期，上述若干周期为第s-m-3周期至第s-m周期，对于样本1，第s-m-3周期至第s-m 周期的概率分布分别为，(0.6，0.3，0.1)、(0.7，0.1，0.2)、(0.5，0.4， 0.1)，则可以确定当前样本的历史概率分布为：((0.6+0.7+0.5)/3，(0.3+0.1+0.4) /3，(0.1+0.2+0.1)/3)＝(0.6，0.8/3，0.4/3)。可以理解，在当前样本包括多个训练样本的情况下，对各个当前样本，可以确定一个历史概率分布。

进一步地，在步骤204中，利用历史概率分布与当前概率分布的对比，确定对模型参数的第二调节指标。这里，历史概率分布与当前概率分布的对比主要是概率分布的差异性比较。可以理解，第二调节指标是将上述的若干训练周期的历史状态下的预测模型作为老师模型，对当前状态的预测模型进行指导的量化描述。

通过历史概率分布与当前概率分布的对比，可以确定历史概率分布与当前概率分布的差异，该差异可以通过差异参数来描述。例如差异参数可以通过诸如KL散度(相对熵)、交叉熵、JS距离、方差之类的参数进行衡量。以类别1、类别2、类别3下的概率分布，KL散度为例，可以对历史概率分布 Q和当前概率分布P的差别进行非对称性的度量，各个类别记为y_i，类别集合记为Y，则KL散度可以通过以下公式确定：

假设预测模型针对的类别包括类别1、类别2、类别3，样本1的历史概率分布为(0.7，0.1，0.2)，当前概率分布为(0.6，0.3，0.1)，则其对应的 KL散度为：

通常，历史概率分布与当前概率分布差异越大，差异参数越大，第二调节指标越大。以KL散度为例，由于KL散度是一个非负值，因此，当前概率的调节幅度可以与KL散度值正相关，调节方向可以是当前概率分布中的概率向历史概率分布中的相应概率的移动方向。如以上例子中，在类别1上，当前概率为0.6，历史概率为0.7，因此，与得到类别1相关的模型参数可以正向调整，在类别2上，当前概率为0.3，历史概率为0.1，因此，与得到类别2相关的模型参数可以负向调整。在一个可选的实施例中，概率调整量值可以是：历史概率与当前概率的差(符号一致)，与差异参数和当前最大差异参数(确保不大于1)的商的乘积。通过调整模型参数，在确保各个类别上的概率和为1的情况下，使得概率的调整幅度尽可能接近相应的概率调整量值，从而得到各个模型参数分别对应的调节量值，各个调节量值构成相应差异参数下的调节指标。

第二调节指标可以通过向量形式表示，如(0.005，-0.01，0.03……)，也可以通过数组形式表示，如[0.005，-0.01，0.03……]在此不作限定。

值得说明的是，在当前样本包括多个训练样本的情况下，在一个实施例中，上述差异参数可以通过对这多个训练样本分别的差异参数取平均，并进一步用取平均得到的差异参数确定第二调节指标，在另一个实施例中，可以对各个样本确定差异参数及在相应差异参数下，模型参数的调节指标，并对各个模型参数的调节指标取平均，得到第二调节指标。

然后，在步骤205中，基于第一调节指标和第二调节指标，调整模型参数，以训练预测模型。可以理解，样本标签作为可信度较高的参考标准，历史状态的预测模型作为老师模型，可以共同指引预测模型的训练方向。

在一个实施方式中，对当前预测模型的模型参数调整第一调节指标和第二调节指标的和。例如对当前预测模型的模型参数先按照第一调节指标调整后，再按照第二调节指标进行调整，或者对第一调节指标和第二调节指标求和，得到和量值，对当前预测模型的模型参数按照和量值进行调整。

在另一个实施方式中，还可以对当前预测模型的模型参数调整第一调节指标和第二调节指标的加权和。此时，第一调节指标和第二调节指标的权重之和为1，可以通过人工预先设定。当第一调节指标和第二调节指标的权重都是 0.5时，相当于对第一调节指标和第二调节指标求平均。

可以理解，由于每个周期样本都是完全打乱顺序随机抽取的，在每一个模型状态下输入多个训练样本(如图1中n大于1)时，这多个训练样本在历史训练周期中被抽取的顺序各不相同(如在历史训练周期中有的在第一步被抽取，有的在最后一步被抽取)，它们的历史预测概率携带了历史训练周期中不同状态下的模型参数信息，因此，相当于同时向多个老师模型学习，加快学习效率，提升模型学习效果。

在图2示出的流程中，由于第一个训练周期中第一步中的预测模型是初始状态的预测模型，各个参数的初始值由于是随机赋值的，准确度不高，根据一个可能的设计，可以排除该步中的样本概率分布，从设定周期(如第5周期)之后开始记录概率分布用作老师模型。此时，当前训练周期可以是该设定训练周期之后的训练周期。

回顾以上过程，将较前周期状态下的预测模型，作为较后周期的预测模型的老师模型，对老师模型，仅记录历史概率分布，和样本标签一起为模型参数的调整指引方向。由于每个训练周期中，各个状态下的输入样本都随机抽取，如果当前训练周期当前状态下输入的当前样本有多个，则这多个样本可以携带有历史训练周期中不同状态下的模型参数信息，相当于同时向多个老师模型学习，加快学习效率，提升模型学习效果。同时，存储的数据仅为各个样本在相关历史周期的概率分布，以较低的计算成本和存储成本，达到同时向多个老师模型学习的效果，可以提高模型训练的有效性。

根据另一方面的实施例，还提供一种训练预测模型的装置。该装置可以设于具有一定计算能力的电子设备。预测模型用于对业务数据进行处理，确定业务数据对应到预先确定的各个类别上的概率，以对业务数据进行分类操作。其中，预测模型的训练过程可以通过多个训练周期进行，各个训练周期对所有训练样本按照随机顺序进行遍历。

图4示出根据一个实施例的训练预测模型的装置的示意性框图。如图4 所示，训练预测模型的装置400包括：

预测单元41，配置为针对当前训练周期中的当前样本，将当前样本的特征数据输入预测模型，得到预测模型对当前样本预测的当前概率分布，当前概率分布描述当前样本在各个类别上分别对应的各个当前预测概率；

第一确定单元42，配置为根据当前样本对应的样本标签，以及各个当前预测概率，向损失函数的值减小的方向，确定对模型参数的第一调节指标；

获取单元43，配置为获取当前训练周期之前的若干训练周期中，当前样本的历史概率分布，历史概率分布用于描述针对当前样本在若干训练周期中各个类别上分别对应的各个历史预测概率；

第二确定单元44，配置为利用历史概率分布与当前概率分布的对比，确定对模型参数的第二调节指标；

调整单元45，配置为基于第一调节指标和第二调节指标，调整模型参数，以训练预测模型。

根据一个实施方式，当前样本包括预定数量的训练样本，模型参数包括第一模型参数，第一模型参数在第一调节指标中对应第一调节量值；第一确定单元还配置为：

针对预定数量的训练样本中的各个训练样本，向损失函数的值减小的方向，分别确定对第一模型参数的各个调节量值；

将各个调节量值的平均值作为第一调节量值。

根据一个实施方式，获取单元43还配置为：

对若干训练周期中，当前样本分别对应的各个概率分布取平均，得到的概率分布作为历史概率分布。

根据一个实施方式，第二确定单元44还配置为：

确定历史概率分布与当前概率分布的差异参数，差异参数包括以下中的一种：KL散度、交叉熵、JS散度、方差；

利用差异参数确定第二调节指标。

在一个实施例中，第二确定单元44进一步配置为：

针对预定数量的训练样本中的各个训练样本，分别确定相应历史概率分布与相应当前概率分布的各个差异参数；

将各个差异参数的平均值作为历史概率分布与当前概率分布的差异参数。

在另一个实施例中，当前样本包括预定数量的训练样本，第二确定单元 44进一步配置为：

利用各个差异参数，分别确定对模型参数的各个调节指标；

将各个调节指标的平均值作为第二调节指标。

根据一个实施方式，调整单元45还配置为：

利用以下中的一项调整模型参数：

第一调节指标与第二调节指标的和；

第一调节指标与第二调节指标的加权和。

值得说明的是，图4所示的装置400是与图2示出的方法实施例相对应的装置实施例，图2示出的方法实施例中的相应描述同样适用于装置400，在此不再赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2 所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种通过计算机训练预测模型的方法，所述预测模型用于对业务数据进行处理，确定所述业务数据对应到预先确定的各个信息类别上的概率，以对所述业务数据进行分类操作，所述业务数据包括基于设备确定的历史操作数据；所述预测模型训练过程包括多个训练周期，各个训练周期对所有训练样本按照随机顺序进行遍历，其中，针对当前训练周期中的当前样本，所述方法包括：

将所述当前样本的特征数据输入所述预测模型，得到所述预测模型对所述当前样本预测的当前概率分布，所述当前概率分布描述所述当前样本在各个信息类别上分别对应的各个当前预测概率，所述特征数据基于所述历史操作数据确定；

根据所述当前样本对应的样本标签，以及各个当前预测概率，向损失函数的值减小的方向，确定对模型参数的第一调节指标，所述样本标签描述出用户偏好的信息类别；

获取所述当前训练周期之前的若干训练周期中，所述当前样本的历史概率分布，所述历史概率分布用于描述针对所述当前样本在所述若干训练周期中各个信息类别上分别对应的各个历史预测概率；

利用所述历史概率分布与所述当前概率分布的对比，确定对模型参数的第二调节指标；

基于所述第一调节指标和所述第二调节指标，调整模型参数，以训练所述预测模型，用于对用户的信息偏好进行预测。

2.根据权利要求1所述的方法，所述当前样本包括预定数量的训练样本，所述模型参数包括第一模型参数，所述第一模型参数在所述第一调节指标中对应第一调节量值；所述根据所述当前样本对应的样本标签，以及各个当前预测概率，向损失函数的值减小的方向，确定对模型参数的第一调节指标包括：

针对所述预定数量的训练样本中的各个训练样本，向损失函数的值减小的方向，分别确定对所述第一模型参数的各个调节量值；

将各个调节量值的平均值作为所述第一调节量值。

3.根据权利要求1所述的方法，其中，所述获取所述当前训练周期之前的若干训练周期中，所述当前样本的历史概率分布包括：

对所述若干训练周期中，所述当前样本分别对应的各个概率分布取平均，得到的概率分布作为所述历史概率分布。

4.根据权利要求1所述的方法，其中，所述利用所述历史概率分布与所述当前概率分布的对比，确定对模型参数的第二调节指标包括：

确定所述历史概率分布与所述当前概率分布的差异参数，所述差异参数包括以下中的一种：KL散度、交叉熵、JS散度、方差；

利用所述差异参数确定所述第二调节指标。

5.根据权利要求4所述的方法，其中，所述当前样本包括预定数量的训练样本，所述确定所述历史概率分布与所述当前概率分布的差异参数包括：

针对所述预定数量的训练样本中的各个训练样本，分别确定相应历史概率分布与相应当前概率分布的各个差异参数；

将各个差异参数的平均值作为所述历史概率分布与所述当前概率分布的差异参数。

6.根据权利要求4所述的方法，其中，所述当前样本包括预定数量的训练样本，所述预定数量的训练样本中的各个训练样本，分别对应各个差异参数，所述利用所述差异参数确定所述第二调节指标包括：

利用各个差异参数，分别确定对所述模型参数的各个调节指标；

将各个调节指标的平均值作为所述第二调节指标。

7.根据权利要求1所述的方法，其中，所述基于所述第一调节指标和所述第二调节指标，调整模型参数包括：

利用以下中的一项调整模型参数：

所述第一调节指标与所述第二调节指标的和；

所述第一调节指标与所述第二调节指标的加权和。

8.一种训练预测模型的装置，所述预测模型用于对业务数据进行处理，确定所述业务数据对应到预先确定的各个信息类别上的概率，以对所述业务数据进行分类操作，所述业务数据包括基于设备确定的历史操作数据；所述预测模型训练过程包括多个训练周期，各个训练周期对所有训练样本按照随机顺序进行遍历，其中，所述装置包括：

预测单元，配置为针对当前训练周期中的当前样本，将所述当前样本的特征数据输入所述预测模型，得到所述预测模型对所述当前样本预测的当前概率分布，所述当前概率分布描述所述当前样本在各个信息类别上分别对应的各个当前预测概率，所述特征数据基于所述历史操作数据确定；

第一确定单元，配置为根据所述当前样本对应的样本标签，以及各个当前预测概率，向损失函数的值减小的方向，确定对模型参数的第一调节指标，所述样本标签描述出用户偏好的信息类别；

获取单元，配置为获取所述当前训练周期之前的若干训练周期中，所述当前样本的历史概率分布，所述历史概率分布用于描述针对所述当前样本在所述若干训练周期中各个信息类别上分别对应的各个历史预测概率；

调整单元，配置为基于所述第一调节指标和所述第二调节指标，调整模型参数，以训练所述预测模型，用于对用户的信息偏好进行预测。

9.根据权利要求8所述的装置，所述当前样本包括预定数量的训练样本，所述模型参数包括第一模型参数，所述第一模型参数在所述第一调节指标中对应第一调节量值；所述第一确定单元还配置为：

将各个调节量值的平均值作为所述第一调节量值。

10.根据权利要求8所述的装置，其中，所述获取单元还配置为：

11.根据权利要求8所述的装置，其中，所述第二确定单元还配置为：

利用所述差异参数确定所述第二调节指标。

12.根据权利要求11所述的装置，其中，所述当前样本包括预定数量的训练样本，所述第二确定单元进一步配置为：

13.根据权利要求11所述的装置，其中，所述当前样本包括预定数量的训练样本，所述第二确定单元进一步配置为：

将各个调节指标的平均值作为所述第二调节指标。

14.根据权利要求8所述的装置，其中，所述调整单元还配置为：

利用以下中的一项调整模型参数：

所述第一调节指标与所述第二调节指标的和；

所述第一调节指标与所述第二调节指标的加权和。

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项的所述的方法。

16.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的方法。