CN108304354B - 一种预测模型训练方法及装置、存储介质、电子设备 - Google Patents
一种预测模型训练方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN108304354B CN108304354B CN201810074890.9A CN201810074890A CN108304354B CN 108304354 B CN108304354 B CN 108304354B CN 201810074890 A CN201810074890 A CN 201810074890A CN 108304354 B CN108304354 B CN 108304354B
- Authority
- CN
- China
- Prior art keywords
- sample data
- feature
- weight
- characteristic
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Abstract
本发明实施例公开一种预测模型训练方法及装置、存储介质、电子设备。其中方法步骤包括基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量,第一样本数据包括N个特征,N为正整数;根据多个第二样本数据的有效特征值,获取N个特征中每个特征对应的权重,其中,第二样本数据与第一样本数据同属于一个样本数据集合;按照每个特征对应的权重、中间梯度向量、多个第一样本数据的样本总数,获取多个第一样本数据的目标梯度向量;根据目标梯度向量对第一模型参数进行更新,以得到第二模型参数。采用本申请,可以提高该特征在模型参数更新中的影响力度,进而提高预测模型的准确性。
Description
技术领域
本发明涉及预测模型技术领域,尤其涉及一种预测模型训练方法及装置、存储介质、电子设备。
背景技术
基于机器学习的预测模型训练通常是利用样本数据集合训练一个适用于该任务的预测模型;其中,样本数据集合通常包含多维特征的特征值。现有的基于多样本的预测模型训练是对多个样本数据中每个样本数据计算各自的梯度值,再根据多个样本数据的总数对全部的梯度值的和求平均,并根据平均梯度值来更新预测模型参数。然而,样本数据集合的每个特征值并非都是有效的,这样会使得各维特征中的有效的特征值的数量是不一样的,例如个别特征的有效的特征值较为稀疏,这样在对全部的梯度值的和求平均之后,该维特征对应的平均梯度值极小,从而不会对预测模型的模型参数的更新产生影响,降低了该特征在模型参数更新中的影响力度,也降低了预测模型的准确性。
发明内容
本发明实施例提供一种预测模型训练方法及装置、存储介质、电子设备,可以提高该特征在模型参数更新中的影响力度,进而提高预测模型的准确性。
一方面,为本发明实施例提供了预测模型训练方法,包括:
基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量,所述第一样本数据包括N个特征,N为正整数;
根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重,其中,所述第二样本数据与所述第一样本数据同属于一个样本数据集合;
按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量;
根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数。
另一方面,为本发明实施例提供了一种预测模型训练装置,包括:
第一向量获取模块,基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量,所述第一样本数据包括N个特征,N为正整数;
权重获取模块,用于根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重,其中,所述第二样本数据与所述第一样本数据同属于一个样本数据集合;
第二向量获取模块,用于按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量;
参数更新模块,用于根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数。
另一方面,为本发明实施例提供了计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行第一方面和基于第一方面的可能的实现方案中任意一项的方法步骤。
在本发明实施例中,通过采用第一模型参数的预测模型获取多个第一样本数据中每个第一样本数据的中间梯度向量,第一样本数据包括N个特征;根据多个第二样本数据的有效特征值,获取N个特征中每个特征对应的权重,并按照所获取的每个特征对应的权重、中间梯度向量、多个第一样本数据的样本总数,计算多个第一样本数据的目标梯度向量;根据目标梯度向量对第一模型参数进行更新,以得到第二模型参数。通过在计算多个第一样本数据的目标梯度向量时考虑个每个特征对应的权重,这样能够在有效特征值较为稀疏的情况下通过权重来改变该特征对应的目标梯度值,进而提高了该特征在模型参数更新中的影响力度,也提高了预测模型的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种预测模型参数更新的场景示例图;
图2是本发明实施例提供的一种预测模型训练方法的流程示意图;
图3是本发明实施例提供的一种权重的确定方法的流程示意图;
图4是本发明实施例提供的一种步骤203的流程示意图;
图5a是本发明实施例提供的一种预测模型训练装置的示例图;
图5b是本发明实施例提供的一种预测模型训练装置的示例图;
图6是本发明实施例提供的一种预测模型训练装置的结构示意图;
图7是本发明实施例提供的另一种预测模型训练装置的结构示意图;
图8是本发明实施例提供的另一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,为本发明实施例提供了一种预测模型参数更新的场景示例图。如图1所示,该预测模型参数更新的场景示例图包括分布式文件系统(Distributed FileSystem,DFS)101,例如Hadoop分布式文件系统(HDFS)和预测模型训练装置102。其中,DFS101可以用于存储用于预测模型训练的样本数据,该样本数据包括特征向量和样本标签。举例来说,若预测模型是用于预测用户点击某个新闻、文章、广告等内容的概率的,则样本数据是由一个或者多个用户的历史点击数据生成的,其中,特征向量可以是包括当某一内容被显示时当前用户的特征以及内容的特征,例如,用户的特征为性别、年龄段等,内容的特征可以为内容所属分类、内容发布时间段等,样本标签包含用户是否点击该内容的结果。DFS 101还可以用于向需要预测模型的模型参数的平台提供模型参数,该模型参数来自于预测模型训练装置102。预测模型训练装置102用于根据样本数据更新预测模型的模型参数。
举例来说,在图1所示的场景实例图中,DFS 101可以将多个样本数据发送至预测模型训练装置102,预测模型训练装置102根据接收到的多个样本数据对模型参数进行更新,在模型参数更新之后,预测模型训练装置102可以将更新后的模型参数发给DFS 101。
在本发明实施例的重点在于预测模型训练装置102如何更新模型参数,具体是:基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量,第一样本数据包括N个特征;根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重,并按照每个特征对应的权重、中间梯度向量、多个第一样本数据的样本总数,计算多个第一样本数据的目标梯度向量;根据目标梯度向量对第一模型参数进行更新,以得到第二模型参数。通过在计算多个第一样本数据的目标梯度向量时考虑个每个特征对应的权重,这样能够在有效特征值较为稀疏的情况下通过权重来改变该特征对应的目标梯度值,进而提高了该特征在模型参数更新中的影响力度,也提高了预测模型的准确性。
本发明实施例中所涉及的预测模型训练装置可以是具备通信功能的装置,例如可以是手持终端装置、笔记本电脑、用户单元(subscriber unit)、蜂窝电话(cellularphone)、智能电话(smart phone)、无线数据卡、个人数字助理(personal digitalassistant,PDA)电脑、平板型电脑、无线调制解调器(modem)、手持装置(handheld)、膝上型电脑(laptop computer)、无绳电话(cordless phone)或者无线本地环路(wireless localloop,WLL)台、机器类型通信(machine type communication,MTC)终端等,例如,预测模型训练装置还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置。本发明实施例中所涉及的预测模型训练装置可以是具备处理和通信功能的后台服务装置。本发明实施例对预测模型训练装置不做限定。
请参见图2,为本发明实施例提供了一种预测模型训练方法的流程示意图。如图2所示,所述预测模型训练方法包括步骤201至步骤203。
201,基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量。
具体的,预测模型包含第一模型参数,第一模型参数是适配于预测模型的,在预测模型的训练阶段可以对第一模型参数进行更新,在第一模型参数更新之后相应的预测模型也会更新为采用更新后的模型参数。
多个第一样本数据可以用于对预测模型进行训练,每个第一样本数据包括N个特征中每个特征对应的特征值,N为正整数。其中,在N个特征中每个特征对应一个特征值,N个特征值组成了第一特征向量。所述第一样本数据还包括与所述第一特征向量对应的第一样本标签,其中,第一样本标签是包含正确标签的数据。
举例来说,第一样本数据是关于用户是否点击某个新闻内容的数据,设其中一个第一样本数据为(x,y),其中x是N维第一特征向量,N为第一样本数据包含的特征的数量;y为第一样本标签,其取值是1或0,表示用户是否点击。预测模型是逻辑回归预测模型,即:
其中w是N维的向量,也是本发明实施例中的预测模型的第一模型参数。由于w和x都是向量,w·x表示内积,因此w·x得到的是个标量,通过上述p的计算公式可以得到p的取值范围是0到1之间,表示在将第一特征向量x输入至采用第一模型参数w的预测模型之后,所得到的预测结果,这里的预测结果表示预测的用户点击概率。
接着,预测模型训练装置计算该第一样本数据的预测损失,第一样本数据的预测损失可以理解为:预测结果与真实结果之间的偏差,这里的预测结果是指将某一内容对应的第一特征向量输入预测模型得到的用户点击概率,真实结果是该第一特征向量在第一样本数据中对应的第一样本标签,这里的第一样本标签是指用户对该内容是否点击的结果。
多个第一样本数据中,第i个第一样本数据的预测损失li(w)为:
li(w)=-ylog(p)+(1-y)log(1-p)
然后,计算第i个第一样本数据的中间梯度向量li'(w),其计算公式为:
202,根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重。其中,第二样本数据与第一样本数据同属于一个样本数据集合。
具体的,预测模型训练装置根据多个第二样本数据的有效特征值获取N个特征中每个特征对应的权重,即每一个特征对应一个权重。每个第二样本数据包括N个特征中每个特征对应的特征值,根据每个特征对应的特征值确定出多个第二样本数据的有效特征值。
可选的,多个第二样本数据与多个第一样本数据可以为完全相同、部分相同或者完全不同的的样本数据,本发明实施例对此不作限定。
可选的,每个特征对应的权重与多个第二样本数据中每个特征对应的有效特征值的数量有关。其中,有效特征值为在第一阈值范围内的特征值。例如,特征值若采用1个bit的二进制数0或1表示,可以设定0为不是有效特征值,1是有效特征值。
可选的,每个特征对应的有效特征值的数量越多,该特征对应的权重值越小,同理,每个特征对应的有效特征值的数量越少,该特征对应的权重值越大。这样能够在有效特征值较少的情况下可以通过权重来改变该特征对应的目标梯度值。
在一种可能的实现方案中,在根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重之前,可以执行图3实施例中权重的确定方法的流程示意图,具体可以包括步骤301至步骤302。具体请参见图3的详细描述。
可选的,本发明实施例对步骤202和步骤201的执行先后顺序不做限定。
203,按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量。
具体的,预测模型训练装置按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量。其中,所述中间梯度向量包括所述每个特征对应的预测损失梯度值。
在一种可能的实现方案中,请一并参见图4,为本发明实施例提供了一种步骤203的流程示意图,如图4所示,该步骤203可以通过步骤401和步骤402来实现。具体请参见图4的详细描述。
204,根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数。
具体的,预测模型训练装置根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数。例如,预测模型训练装置可以按照参数更新规则来实现模型参数的更新。
举例来说,设目标梯度向量为H(w),第一模型参数为w,更新后的第二模型参数为w',则参数更新规则如下:
其中,η为预测模型设定的N维常向量;表示向量的分量乘法运算。运用运算的举例为:可选的,这里的参数更新规则采用在线梯度下降方法来更新,实际还可以采用其他方法来更新,例如在线机器学习(Follow theregularized Leader,FTRL),本发明实施例对此不做限定。
在本发明实施例中,基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量,第一样本数据包括N个特征;根据多个第二样本数据的有效特征值,获取N个特征中每个特征对应的权重,按照每个特征对应的权重、中间梯度向量、多个第一样本数据的样本总数,计算多个第一样本数据的目标梯度向量;根据目标梯度向量对第一模型参数进行更新,以得到第二模型参数。通过在计算多个第一样本数据的目标梯度向量时考虑个每个特征对应的权重,这样能够在有效特征值较为稀疏的情况下通过权重来改变该特征对应的目标梯度值,进而提高了该特征在模型参数更新中的影响力度,也提高了预测模型的准确性。
请参见图3,为本发明实施例提供了一种权重确定方法的流程示意图,如图3所示该方法包括步骤301和步骤302。
301,获取多个第二样本数据,所述第二样本数据包括N个特征中每个特征对应的特征值。
具体的,预测模型训练装置获取多个第二样本数据。其中,第二样本数据和第一样本数据是基于同一应用场景下提取到的样本数据,因此两者所包含的特征的数量相同,即第二样本数据也包含N个特征中每个特征对应的特征值。
可选的,这里的多个第二样本数据是从样本数据集合中抽样得到的,例如,预测模型训练装置可以按照一定比例从样本数据集合中随机抽样得到多个第二样本数据。而多个第一样本数据是在对样本数据集合进行批次划分之后,目标批次所包含的样本数据。这样对于样本数据集合所划分的各个批次,均可以采用通过多个第二样本数据获取到的每个特征对应的权重来计算目标梯度向量。实际中样本数据集合包含成千上万的样本数据,通过抽样来确定样本数据集合中每个特征对应的权重,可以减少计算的复杂度,提高权重的确定效率。
可选的,这里的多个第二样本数据与多个第一样本数据可以为相同的样本数据。这样能够精确的确定出多个第一样本数据中每个特征对应的权重,提高了所确定的权重的准确性。
302,在所述多个第二样本数据中,统计所述每个特征的有效特征值的数量,所述有效特征值为在第一阈值范围内的特征值。
具体的,预测模型训练装置在多个第二样本数据中确定每个特征对应的有效特征值,并统计每个特征的有效特征值的数量。
其中,所述有效特征值为在第一阈值范围内的特征值。例如,特征值若采用1个bit的二进制数0或1表示,可以设定0为不是有效特征值,1是有效特征值。又如,若特征值为实数,则可以设定非0实数为有效特征值,0不是有效的特征值。本发明实施例对第一阈值范围不做限定,本领域技术人员可以根据实际应用场景的需求来自行设定。可选的,在不同特征对应的特征值的范围不同的情况下,预测模型装置可以针对不同的特征设定不同的第一阈值范围,这样将第一阈值范围细化到特征的精度,能够提高所确定的权重的准确性。
举例来说,若多个第二样本数据的样本数量为10个,每个第二样本数据包含8个特征对应的特征值,8个特征分别为T1、T2、……、T8;对于特征T1而言,预测模型训练装置可以先在10个第二样本数据的每个第二样本数据中获取特征T1对应的特征值,再根据第一阈值范围来确定T1对应的有效特征值,进而统计出特征T1对应的有效特征值的数量。其他特征的有效特征值的数量的确定过程可以参考特征T1的有效特征值的数量的确定过程,在此不再赘述。
接下来对步骤202根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重的可能的实现方式进行介绍。
具体的,预测模型训练装置根据多个第二样本数据中每个特征的有效特征值的数量,确定所述每个特征对应的权重。其中,每个特征对应的权重与该特征的有效特征值的数量成反比。
在一种可选的实现方式中,预测模型训练装置可以分别确定各个特征对应的权重。以步骤302中的举例为前提,举例来说:将特征T1对应的有效特征的数量的倒数,确定为特征T1对应的权重;又举例来说,多个第二样本数据的样本总数除以特征T1对应的有效特征的数量得到的值,确定为特征T1对应的权重。例如,这一方式可以应用于样本数据包含的特征种类较少的情况下,可以一一确定每个特征的权重。
在另一种可选的实现方式中,预测模型训练装置可以的对N个特征中的特征进行分组,每个特征分组对应一个权重,这样该特征分组包含的特征均对应一个权重。具体实现过程如下:
首先,预测模型训练装置按照所述每个特征的有效特征值的数量,将所述N个特征划分为M个特征分组,所述M个特征分组中每个特征分组包含的特征的有效特征值的数量在第二阈值范围内。由于是对N个特征进行分组,因此一个特征只能属于一个分组,且一个分组包含至少一个特征,因此M为小于或等于N的正整数。在可选的实现方案中,预测模型训练装置可以对每个特征分组设定一个第二阈值范围,以实现按照有效特征值的数量将各个特征划分至特征分组。
接着,预测模型训练装置根据所述每个特征分组包含的特征的有效特征值的数量,确定所述每个特征分组的权重。
举例来说,预测模型训练装置确定所述每个特征分组的权重可以是:基于所述每个特征分组包含的特征的数量和有效特征值的数量,预测模型训练装置计算所述每个特征分组对应的有效特征值的平均数量;预测模型训练装置将所述每个特征分组对应的有效特征值的平均数量的倒数,确定为所述每个特征分组的权重。
又举例来说,预测模型训练装置确定所述每个特征分组的权重可以是:基于所述每个特征分组包含的特征对应的有效特征值的数量,预测模型训练装置可以从中选择一个数量确定为该特征分组的代表数量,这里预测模型训练装置可以随机选择一个特征对应有效特征值的数量;或者选择最大的有效特征值的数量,或者选择最小的有效特征值的数量等方式来确定。预测模型训练装置将所述每个特征分组对应的代表数量的倒数,确定为所述每个特征分组的权重。
可选的,预测模型训练装置可以采用相同的系数对每个特征分组的权重进行更新,例如,将多个第二样本数据的样本总数乘以每个特征分组的权重,得到更新后的每个特征分组的权重。
这样通过图3所示步骤可以实现确定每个特征对应的权重。
请参见图4,为本发明实施例提供了一种步骤203的流程示意图,如图4所示该方法包括步骤401和步骤402。
401,根据所述多个第一样本数量的样本总数和所述每个第一样本数据的中间梯度向量,计算所述多个第一样本数量的平均梯度向量。
具体的,预测模型训练装置根据多个第一样本数量的样本总数和所述每个第一样本数据的中间梯度向量,计算所述多个第一样本数量的平均梯度向量。其中,所述平均梯度向量包括由多个所述中间梯度向量中所述每个特征对应的预测损失梯度值所计算的梯度平均值。
举例来说,第i个第一样本数据的中间梯度向量li'(w),li'(w)为N维向量;平均梯度向量G(w)的计算公式为:
其中,K为多个第一样本数据的样本总数。另外,由于li'(w)为N维向量,因此G(w)也为N维向量,每一维表示所述每个特征对应的梯度平均值;也就说G(w)可以表示为G(w)=(G1(w),G2(w),……,GN(w))。
402,根据所述平均梯度向量和所述每个特征对应的权重,计算所述多个第一样本数据的目标梯度向量。
具体的,预测模型训练装置根据所述平均梯度向量和所述每个特征对应的权重,计算所述多个第一样本数据的目标梯度向量。
举例来说,以步骤401的介绍为前提,设目标梯度向量为H(w),每个特征对应的权重用λj表示j的取值范围为[1,N],则H(w)的计算公式为:
H(w)=(G1(w)*λ1,G2(w)*λ2,……,GN(w)*λN)
这样预测模型训练装置通过将所述平均梯度向量中所述每个特征对应的梯度平均值和所述每个特征对应的权重相乘,得到所述每个特征对应的目标梯度向量。
进一步的,结合图5a和图5b对本发明实施例涉及到的预测模型训练装置进行具体介绍。图5a和图5b均是从功能逻辑的角度更完整地展示了以上所示方法可能涉及到的其他方面,以方便读者进一步理解本申请记载的技术方案。
请参见图5a,为本发明实施例提供了一种预测模型训练装置的示例图。如图5a所示,所述预测模型训练装置可以包括:权重计算节点501、模型参数更新节点502、多个目标梯度向量计算节点;多个目标梯度向量计算节点包括目标梯度向量计算节点503、目标梯度向量计算节点504、……、目标梯度向量计算节点505。其中,这里的各个节点可以通过一台物理主机实现,或者可以通过一台虚拟机来实现,或者可以是在一台物理主机中嵌入的一个模块来实现。若通过上述这些节点确定至少存在两台物理主机,则预测模型训练装置可以相当于预测模型训练系统,本发明实施例对这一名称不做限定。
举例来说,首先,预测模型训练装置中用于训练模型的样本数据为样本数据集合,该样本数据集合可以是一段时间范围内由多个用户或单个用户产生的样本数据;样本数据集合可以存储于模型参数更新节点502中,例如,DFS将样本数据集合发送至预测模型训练装置中的模型参数更新节点502。模型参数更新节点502对样本数据集合进行划分批次,每个批次均包括多个第一样本数据,本发明实施例对每个批次的多个第一样本数据的样本总数不做限定。
其次,权重计算节点501还可以根据样本数据集合计算每个特征对应的权重。可选的,权重计算节点501可以接收DFS发送的样本数据集合,或者接收模型参数更新节点502发送的样本数据集合;权重计算节点501按照一定的比例在样本数据集合中抽样得到多个第二样本数据,并对多个第二样本数据进行数据分析,得到每个特征对应的权重。权重计算节点501确定每个特征对应的权重的具体方式可以参考图3所示实施例中步骤301至步骤302的详细描述,在此不再赘述。权重计算节点501在确定每个特征对应的权重之后,可以将每个特征对应的权重发送至模型参数更新节点502,以使模型参数更新节点502将每个特征对应的权重分发至参与目标梯度向量计算的目标梯度向量计算节点中。
接着,模型参数更新节点502将每个特征对应的权重分发至目标梯度向量计算节点。以及模型参数更新节点502将各个批次的多个第一样本数据分发至目标梯度向量计算节点,例如,将第一批次的多个第一样本数据发送至目标梯度向量计算节点1、将第二批次的多个第一样本数据发送至目标梯度向量计算节点2等等。相应的,目标梯度向量计算节点根据接收到的多个第一样本数据和每个特征对应的权重计算目标梯度向量,具体可以参考图2所示实施例中步骤201和步骤203的详细描述。
最后,模型参数更新节点502接收目标梯度向量计算节点反馈的目标梯度向量。可选的,模型参数更新节点502可以对一个目标梯度向量计算节点反馈的一个目标梯度向量更新一次模型参数。或者可选的,模型参数更新节点502可以在接收到关于样本数据集合的全部目标梯度向量计算节点反馈的全部目标梯度向量之后,对全部的目标梯度向量求加权平均值,再根据加权平均值来更新模型参数,其中这里加权所采用的权重与计算目标梯度向量的多个第一样本数据的权重有关。
通过上述这些节点即可实现预测模型的训练方法。这里仅为举例说明,本发明实施例对所述预测模型训练装置所包含的节点以及各个节点所执行的步骤不做限定。
请参见图5b,为本发明实施例提供了一种预测模型训练装置的示例图。如图5b所示,本方案作为预测模型训练模块507嵌入在预测模型训练装置中。举例来说,若预测模型是用于预测用户点击某个新闻、文章、广告等内容的概率的,除了预测模型训练模块507之外,预测模型训练装置还包括DFS 506、特征提取模块508和应用平台509。
具体实现中,应用平台509可以向用户推荐新闻广告等内容,用户可以查阅(包括点击显示内容和不点击显示内容)应用平台509所显示的数据。用户可以在应用平台509输入自身的用户数据,或者向预测模型训练装置输入用户数据。应用平台509上每一条显示的内容,均可以产生一个用户查阅数据,并将该用户数据发送给特征提取模块508,例如,对于用户没有点击的内容,该用户查阅数据包括了用户数据和未点击的内容数据;对于用户点击的内容,该用户查阅数据包含了用户数据和点击的内容数据。应用平台509可以将产生的用户查阅数据发送给特征提取模块508,特征提取模块508可以从中提取出用户的特征以及内容的特征,以产生样本数据。特征提取模块508可以将产生的样本数据发送给DFS 506,以使DFS 506存储该样本数据。DFS 506可以将一段时间内容的样本数据发送给预测模型训练模块507,预测模型训练模块507按照本发明实施例的方案实现模型参数的更新,并将更新后的模型参数发送给DFS 506,DFS 506可以将更新后的模型参数发送给应用平台509,以使应用平台509按照该模型为用户提供显示的内容,所显示的内容是被用户点击概率大的数据。预测模型训练模块507的具体实现方式可以参考图2至图5a所示实施例的详细描述,在此不再赘述。这样通过图5b所示的预测模型训练装置可以实现向用户提供被用户点击概率大的内容,提高了点击率预估的性能。
请参见图6,为本发明实施例提供了一种预测模型训练装置的结构示意图。如图6所示,本发明实施例的所述预测模型训练装置600可以包括:第一向量获取模块601、权重获取模块602、第二向量获取模块603、参数更新模块604。
第一向量获取模块601,用于基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量,所述第一样本数据包括N个特征。
具体实现中,预测模型包含第一模型参数,第一模型参数是适配于预测模型的,在预测模型的训练阶段可以对第一模型参数进行更新,在第一模型参数更新之后相应的预测模型也会更新为采用更新后的模型参数。
多个第一样本数据可以用于对预测模型进行训练,每个第一样本数据包括N个特征中每个特征对应的特征值,N为正整数。其中,在N个特征中每个特征对应一个特征值,N个特征值组成了第一特征向量。所述第一样本数据还包括与所述第一特征向量对应的第一样本标签,其中,第一样本标签是包含正确标签的数据。
举例来说,第一样本数据是关于用户是否点击某个新闻内容的数据,设其中一个第一样本数据为(x,y),其中x是N维第一特征向量,N为第一样本数据包含的特征的数量;y为第一样本标签,其取值是1或0,表示用户是否点击。预测模型是传统的逻辑回归预测模型,即:
其中w是N维的向量,也是本发明实施例中的预测模型的第一模型参数。由于w和x都是向量,w·x表示内积,因此w·x得到的是个标量,通过上述p的计算公式可以得到p的取值范围是0到1之间,表示在将第一特征向量x输入至采用第一模型参数w的预测模型之后,所得到的预测结果,这里的预测结果表示预测的用户点击概率。
接着,计算该第一样本数据的预测损失,第一样本数据的预测损失可以理解为:预测结果与真实结果之间的偏差,这里的预测结果是指将某一内容对应的第一特征向量输入预测模型得到的用户点击概率,真实结果是该第一特征向量在第一样本数据中对应的第一样本标签,这里的第一样本标签是指用户对该内容是否点击的结果。
多个第一样本数据中第i个第一样本数据的预测损失li(w)为:
li(w)=-ylog(p)+(1-y)log(1-p)
然后,第一向量获取模块601计算第i个第一样本数据的中间梯度向量li'(w),其计算公式为:
可以理解的是,p是关于x(N维特征向量)的公式,通过li(w)的计算公式得到li(w)是一个函数值,在对li(w)计算其梯度得到的li'(w)是N维向量。
权重获取模块602,用于根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重;其中,第二样本数据与第一样本数据同属于一个样本数据集合。
具体实现中,所述权重获取模块602根据多个第二样本数据的有效特征值获取N个特征中每个特征对应的权重,即每一个特征对应一个权重。每个第二样本数据包括N个特征中每个特征对应的特征值,根据每个特征对应的特征值确定出多个第二样本数据的有效特征值。
可选的,多个第二样本数据与多个第一样本数据可以为完全相同、部分相同或者完全不同的的样本数据,本发明实施例对此不作限定。
可选的,每个特征对应的权重与多个第二样本数据中每个特征对应的有效特征值的数量有关。其中,有效特征值为在第一阈值范围内的特征值。例如,特征值若采用1个bit的二进制数0或1表示,可以设定0为不是有效特征值,1是有效特征值。
可选的,每个特征对应的有效特征值的数量越多,该特征对应的权重值越小,同理,每个特征对应的有效特征值的数量越少,该特征对应的权重值越大。这样能够在有效特征值较少的情况下可以通过权重来改变该特征对应的目标梯度值。
第二向量获取模块603,用于按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量。
具体实现中,所述第二向量获取模块603按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量。其中,所述中间梯度向量包括所述每个特征对应的预测损失梯度值。
参数更新模块604,用于根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数。
具体实现中,所述参数更新模块604根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数。例如,预测模型训练装置可以按照参数更新规则来实现模型参数的更新。
举例来说,设目标梯度向量为H(w),第一模型参数为w,更新后的第二模型参数为w',则参数更新规则如下:
其中,η为预测模型设定的N维常向量;表示向量的分量乘法运算。运用运算的举例为:可选的,这里的参数更新规则采用在线梯度下降方法来更新,实际还可以采用其他方法来更新,例如在线机器学习(Follow theregularized Leader,FTRL),本发明实施例对此不做限定。
在本发明实施例中,基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量,第一样本数据包括N个特征;根据多个第二样本数据的有效特征值,获取N个特征中每个特征对应的权重,并按照每个特征对应的权重、中间梯度向量、多个第一样本数据的样本总数,计算多个第一样本数据的目标梯度向量;根据目标梯度向量对第一模型参数进行更新,以得到第二模型参数。通过在计算多个第一样本数据的目标梯度向量时考虑个每个特征对应的权重,这样能够在有效特征值较为稀疏的情况下通过权重来改变该特征对应的目标梯度值,进而提高了该特征在模型参数更新中的影响力度,也提高了预测模型的准确性。
请参见图7,为本发明实施例提供了另一种预测模型训练装置的结构示意图。如图7所示,本发明实施例的所述预测模型训练装置700可以包括:第二数据获取模块701、第一向量获取模块702、权重获取模块703、第二向量获取模块704、参数更新模块705、第一数据获取模块706、数量统计模块707。
第二数据获取模块701,用于获取样本数据集合,并对所述样本数据集合进行批次划分,获取目标批次中的多个第一样本数据。
具体实现中,样本数据集合是用于预测模型数量的数据,例如,拖预测模型是用于预测用户是否点击某个新闻内容的,则样本数据集合可以是一段时间内由用户对所显示的内容是否执行点击的数据。实际中样本数据集合包含成千上万的样本数据,所述第二数据获取模块701可以对获取到的样本数据集合进行批次划分,获取所划分的批次中目标批次包含的多个第一样本数据。其中,目标批次为所划分的批次中的任意一个批次。
第一向量获取模块702,用于基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量,所述第一样本数据包括N个特征,N为正整数。
具体实现中,预测模型包含第一模型参数,第一模型参数是适配于预测模型的,在预测模型的训练阶段可以对第一模型参数进行更新,在第一模型参数更新之后相应的预测模型也会更新为采用更新后的模型参数。
多个第一样本数据可以用于对预测模型进行训练,每个第一样本数据包括N个特征中每个特征对应的特征值,N为正整数。其中,在N个特征中每个特征对应一个特征值,N个特征值组成了第一特征向量。所述第一样本数据还包括与所述第一特征向量对应的第一样本标签,其中,第一样本标签是包含正确标签的数据。
举例来说,第一样本数据是关于用户是否点击某个新闻内容的数据,设其中一个第一样本数据为(x,y),其中x是N维第一特征向量,N为第一样本数据包含的特征的数量;y为第一样本标签,其取值是1或0,表示用户是否点击。预测模型是传统的逻辑回归预测模型,即:
其中w是N维的向量,也是本发明实施例中的预测模型的第一模型参数。由于w和x都是向量,w·x表示内积,因此w·x得到的是个标量,通过上述p的计算公式可以得到p的取值范围是0到1之间,表示在将第一特征向量x输入至采用第一模型参数w的预测模型之后,所得到的预测结果,这里的预测结果表示预测的用户点击概率。
接着,计算该第一样本数据的预测损失,第一样本数据的预测损失可以理解为:预测结果与真实结果之间的偏差,这里的预测结果是指将某一内容对应的第一特征向量输入预测模型得到的用户点击概率,真实结果是该第一特征向量在第一样本数据中对应的第一样本标签,这里的第一样本标签是指用户对该内容是否点击的结果。
多个第一样本数据中第i个第一样本数据的预测损失li(w)为:
li(w)=-ylog(p)+(1-y)log(1-p)
然后,第一向量获取模块702计算第i个第一样本数据的中间梯度向量li'(w),其计算公式为:
可以理解的是,p是关于x(N维特征向量)的公式,通过li(w)的计算公式得到li(w)是一个函数值,在对li(w)计算其梯度得到的li'(w)是N维向量。
权重获取模块703,用于根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重。
具体实现中,所述权重获取模块703根据多个第二样本数据的有效特征值获取N个特征中每个特征对应的权重,即每一个特征对应一个权重。每个第二样本数据包括N个特征中每个特征对应的特征值,根据每个特征对应的特征值确定出多个第二样本数据的有效特征值。
可选的,多个第二样本数据与多个第一样本数据可以为完全相同、部分相同或者完全不同的的样本数据,本发明实施例对此不作限定。
可选的,每个特征对应的权重与多个第二样本数据中每个特征对应的有效特征值的数量有关。其中,有效特征值为在第一阈值范围内的特征值。例如,特征值若采用1个bit的二进制数0或1表示,可以设定0为不是有效特征值,1是有效特征值。
可选的,每个特征对应的有效特征值的数量越多,该特征对应的权重值越小,同理,每个特征对应的有效特征值的数量越少,该特征对应的权重值越大。这样能够在有效特征值较少的情况下可以通过权重来改变该特征对应的目标梯度值。
第二向量获取模块704,用于按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量。
具体实现中,所述第二向量获取模块704包括向量计算单元和向量获取单元。
向量计算单元,用于根据所述多个第一样本数量的样本总数和所述每个第一样本数据的中间梯度向量,计算所述多个第一样本数量的平均梯度向量,所述平均梯度向量包括由多个所述中间梯度向量中所述每个特征对应的预测损失梯度值所计算的梯度平均值。
具体实现中,向量计算单元根据多个第一样本数量的样本总数和所述每个第一样本数据的中间梯度向量,计算所述多个第一样本数量的平均梯度向量。其中,所述平均梯度向量包括由多个所述中间梯度向量中所述每个特征对应的预测损失梯度值所计算的梯度平均值。
举例来说,第i个第一样本数据的中间梯度向量li'(w),li'(w)为N维向量;平均梯度向量G(w)的计算公式为:
其中,K为多个第一样本数据的样本总数。另外,由于li'(w)为N维向量,因此G(w)也为N维向量,每一维表示所述每个特征对应的梯度平均值;也就说G(w)可以表示为G(w)=(G1(w),G2(w),……,GN(w))。
向量获取单元,用于根据所述平均梯度向量和所述每个特征对应的权重,获取所述多个第一样本数据的目标梯度向量。
具体实现中,所述向量获取单元具体用于将所述平均梯度向量中所述每个特征对应的梯度平均值和所述每个特征对应的权重相乘,得到所述每个特征对应的目标梯度值。
具体的,向量获取单元根据所述平均梯度向量和所述每个特征对应的权重,获取所述多个第一样本数据的目标梯度向量。
举例来说,以第二向量获取模块704的介绍为前提,设目标梯度向量为H(w),每个特征对应的权重用λj表示j的取值范围为[1,N],则H(w)的计算公式为:
H(w)=(G1(w)*λ1,G2(w)*λ2,……,GN(w)*λN)
这样预测模型训练装置通过将所述平均梯度向量中所述每个特征对应的梯度平均值和所述每个特征对应的权重相乘,得到所述每个特征对应的目标梯度值。
所述向量获取单元通过将所述平均梯度向量中所述每个特征对应的梯度平均值和所述每个特征对应的权重相乘,得到所述每个特征对应的目标梯度向量。
参数更新模块705,用于根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数。
具体实现中,所述参数更新模块705根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数。例如,预测模型训练装置可以按照参数更新规则来实现模型参数的更新。
举例来说,设目标梯度向量为H(w),第一模型参数为w,更新后的第二模型参数为w',则参数更新规则如下:
其中,η为预测模型设定的N维常向量;表示向量的分量乘法运算。运用运算的举例为:可选的,这里的参数更新规则采用在线梯度下降方法来更新,实际还可以采用其他方法来更新,例如在线机器学习(Follow theregularized Leader,FTRL),本发明实施例对此不做限定。
可选的,在执行权重获取模块703之前,还可以执行第一数据获取模块706、数量统计模块707。
第一数据获取模块706,用于获取多个第二样本数据,所述第二样本数据包括N个特征中每个特征对应的特征值,其中,第二样本数据与第一样本数据同属于一个样本数据集合。
具体的,所述第一数据获取模块706获取多个第二样本数据。其中,第二样本数据和第一样本数据是基于同一应用场景下提取到的样本数据,因此两者所包含的特征的数量相同,即第二样本数据也包含N个特征中每个特征对应的特征值。
可选的,这里的多个第二样本数据是从样本数据集合中抽样得到的,例如,第一数据获取模块706可以按照一定比例从样本数据集合中随机抽样得到多个第二样本数据。而多个第一样本数据是在对样本数据集合进行批次划分之后目标批次所包含的样本数据。这样对于样本数据集合所划分的各个批次,均可以采用通过多个第二样本数据获取到的每个特征对应的权重来计算目标梯度向量。实际中样本数据集合包含成千上万的样本数据,通过抽样来确定样本数据集合中每个特征对应的权重,可以减少计算的复杂度,提高权重的确定效率。
可选的,这里的多个第二样本数据与多个第一样本数据可以为相同的样本数据。这样能够精确的确定出多个第一样本数据中每个特征对应的权重,提高了所确定的权重的准确性。
数量统计模块707,用于在所述多个第二样本数据中,统计所述每个特征的有效特征值的数量,所述有效特征值为在第一阈值范围内的特征值。
具体的,数量统计模块707在多个第二样本数据中确定每个特征对应的有效特征值,并统计每个特征的有效特征值的数量。
其中,所述有效特征值为在第一阈值范围内的特征值。例如,特征值若采用1个bit的二进制数0或1表示,可以设定0为不是有效特征值,1是有效特征值。又如,若特征值为实数,则可以设定非0实数为有效特征值,0不是有效的特征值。本发明实施例对第一阈值范围不做限定,本领域技术人员可以根据实际应用场景的需求来自行设定。可选的,在不同特征对应的特征值的范围不同的情况下,第一数据获取模块706可以针对不同的特征设定不同的第一阈值范围,这样将第一阈值范围细化到特征的精度,能够提高所确定的权重的准确性。
举例来说,若多个第二样本数据的样本数量为10个,每个第二样本数据包含8个特征对应的特征值,8个特征分别为T1、T2、……、T8;对于特征T1而言,数量统计模块707可以先在10个第二样本数据的每个第二样本数据中获取特征T1对应的特征值,再根据第一阈值范围来确定T1对应的有效特征值,进而统计出特征T1对应的有效特征值的数量。其他特征的有效特征值的数量的确定过程可以参考特征T1的有效特征值的数量的确定过程,在此不再赘述。
接下来对权重获取模块703进行具体介绍。
权重获取模块703,用于根据所述每个特征的有效特征值的数量和所述多个第二样本数据的样本总数,确定所述每个特征对应的权重。
具体的,权重获取模块703根据多个第二样本数据中每个特征的有效特征值的数量,确定所述每个特征对应的权重。中,每个特征对应的权重与该特征的有效特征值的数量成反比。
在一种可选的实现方式中,权重获取模块703可以分别确定各个特征对应的权重。具体是:以数量统计模块707中的举例为前提,举例来说:将特征T1对应的有效特征的数量的倒数,确定为特征T1对应的权重;又举例来说,多个第二样本数据的样本总数除以特征T1对应的有效特征的数量得到的值,确定为特征T1对应的权重。例如,这一方式可以应用于样本数据包含的特征种类较少的情况下,可以一一确定每个特征的权重。
在另一种可选的实现方式中,权重获取模块703可以的对N个特征中的特征进行分组,每个特征分组对应一个权重,这样该特征分组包含的特征均对应一个权重。权重获取模块703包括分组划分单元和权重确定单元,具体实现过程如下:
分组划分单元,用于按照所述每个特征的有效特征值的数量,将所述N个特征划分为M个特征分组,所述M个特征分组中每个特征分组包含的特征的有效特征值的数量在第二阈值范围内,M为小于或等于N的正整数。由于是对N个特征进行分组,因此一个特征只能属于一个分组,且一个分组包含至少一个特征,因此M为小于或等于N的正整数。在可选的实现方案中,分组划分单元可以对每个特征分组设定一个第二阈值范围,以实现按照有效特征值的数量将各个特征划分至特征分组。
权重确定单元,用于根据所述每个特征分组包含的特征的有效特征值的数量,确定所述每个特征分组的权重。
举例来说,权重确定单元确定所述每个特征分组的权重可以是:基于所述每个特征分组包含的特征的数量和有效特征值的数量,权重确定单元计算所述每个特征分组对应的有效特征值的平均数量;权重确定单元将所述每个特征分组对应的有效特征值的平均数量的倒数,确定为所述每个特征分组的权重。
又举例来说,权重确定单元确定所述每个特征分组的权重可以是:基于所述每个特征分组包含的特征对应的有效特征值的数量,权重确定单元可以从中选择一个数量确定为该特征分组的代表数量,这里权重确定单元可以随机选择一个特征对应有效特征值的数量;或者选择最大的有效特征值的数量,或者选择最小的有效特征值的数量等方式来确定。权重确定单元将所述每个特征分组对应的代表数量的倒数,确定为所述每个特征分组的权重。
可选的,预测模型训练装置可以采用相同的系数对每个特征分组的权重进行更新,例如,将多个第二样本数据的样本总数乘以每个特征分组的权重,得到更新后的每个特征分组的权重。
这样通过上述介绍可以实现确定每个特征对应的权重。
在本发明实施例中,基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量,第一样本数据包括N个特征;根据多个第二样本数据的有效特征值,获取N个特征中每个特征对应的权重,并按照每个特征对应的权重、中间梯度向量、多个第一样本数据的样本总数,计算多个第一样本数据的目标梯度向量;根据目标梯度向量对第一模型参数进行更新,以得到第二模型参数。通过在计算多个第一样本数据的目标梯度向量时考虑个每个特征对应的权重,这样能够在有效特征值较为稀疏的情况下通过权重来改变该特征对应的目标梯度值,进而提高了该特征在模型参数更新中的影响力度,也提高了预测模型的准确性。
请参见图8,为本发明实施例提供了另一种电子设备的结构示意图。如图8所示,所述电子设备800可以包括:至少一个处理器801,例如CPU,通信接口,例如通信接口包括至少一个网络接口804以及用户接口803,存储器805,至少一个通信总线802。其中,通信总线802用于实现这些组件之间的连接通信。其中,用户接口803可以包括显示屏(Display)等,可选用户接口803还可以包括标准的有线接口、无线接口。网络接口804可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器805可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器805可选的还可以是至少一个位于远离前述处理器801的存储装置。如图8所示,作为一种计算机存储介质的存储器805中可以包括操作系统、网络通信模块、用户接口模块以及预测模型训练应用程序。
在图8所示的电子设备800中,用户接口803主要用于为用户提供输入的接口,例如,输入需要检测的样本数据等;处理器801可以用于调用存储器805中存储的预测模型训练应用程序,并具体执行以下操作:
基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量,所述第一样本数据包括N个特征,N为正整数;
根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重,其中,第二样本数据与第一样本数据同属于一个样本数据集合;
按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量;
根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数。
在一个可能的实施例中,所述中间梯度向量包括所述每个特征对应的预测损失梯度值;所述处理器801在执行按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量具体执行:
根据所述多个第一样本数量的样本总数和所述每个第一样本数据的中间梯度向量,计算所述多个第一样本数量的平均梯度向量,所述平均梯度向量包括由多个所述中间梯度向量中所述每个特征对应的预测损失梯度值所计算的梯度平均值;
根据所述平均梯度向量和所述每个特征对应的权重,获取所述多个第一样本数据的目标梯度向量。
在一个可能的实施例中,所述目标梯度向量包括所述每个特征对应的目标梯度值;所述处理器801在执行所述根据所述平均梯度向量和所述每个特征对应的权重,获取所述多个第一样本数据的目标梯度向量具体执行:
将所述平均梯度向量中所述每个特征对应的梯度平均值和所述每个特征对应的权重相乘,得到所述每个特征对应的目标梯度值。
在一个可能的实施例中,所述处理器801在执行根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重之前,还执行:
获取多个第二样本数据,所述第二样本数据包括N个特征中每个特征对应的特征值;
在所述多个第二样本数据中,统计所述每个特征的有效特征值的数量,所述有效特征值为在第一阈值范围内的特征值。
在一个可能的实施例中,所述处理器801在执行根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重具体执行:
按照所述每个特征的有效特征值的数量,将所述N个特征划分为M个特征分组,所述M个特征分组中每个特征分组包含的特征的有效特征值的数量在第二阈值范围内,M为小于或等于N的正整数;
根据所述每个特征分组包含的特征的有效特征值的数量,确定所述每个特征分组的权重。
在一个可能的实施例中,所述处理器801在执行根据所述每个特征分组包含的特征的有效特征值的数量,确定所述每个特征分组的权重具体执行:
基于所述每个特征分组包含的特征的数量和有效特征值的数量,计算所述每个特征分组对应的有效特征值的平均数量;
将所述每个特征分组对应的有效特征值的平均数量的倒数,确定为所述每个特征分组的权重。
在一个可能的实施例中,所述处理器801在执行获取多个第二样本数据具体执行:
获取样本数据集合,对所述样本数据集合进行抽样以得到多个第二样本数据。
在一个可能的实施例中,所述处理器801在执行基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量之前,还执行:
获取样本数据集合,并对所述样本数据集合进行批次划分,获取目标批次中的多个第一样本数据。
本发明实施例的所述处理器的具体实现可参考前述实施例中相关内容的描述,在此不赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (15)
1.一种预测模型训练方法,其特征在于,包括:
通过应用平台产生用户查阅数据,通过用户查阅数据产生多个第一样本数据;多个第一样本数据是关于用户是否点击内容的数据,多个第一样本数据中对应的第一样本标签是指用户对该内容是否点击的结果;
基于采用第一模型参数的预测模型,对多个第一样本数据中每个第一样本数据进行预测,得到每个第一样本数据的用户点击概率,基于用户点击概率和第一样本标签之间的偏差确定每个第一样本数据的预测损失,通过计算每个第一样本数据的预测损失的梯度,得到多个第一样本数据中每个第一样本数据的中间梯度向量,所述第一样本数据包括N个特征,N为正整数;
获取多个第二样本数据;所述第二样本数据和所述第一样本数据是基于同一应用场景下提取到的样本数据;所述第二样本数据包括N个特征中每个特征对应的特征值;
根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重,其中,所述第二样本数据与所述第一样本数据同属于一个样本数据集合;所述有效特征值为在第一阈值范围内的特征值,每个特征对应的权重与该特征的有效特征值的数量成反比;
按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量;
根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数,在所述应用平台中,通过包含所述第二模型参数的预测模型向用户提供被用户点击概率大的内容。
2.根据权利要求1所述的方法,其特征在于,所述中间梯度向量包括所述每个特征对应的预测损失梯度值;
所述按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量,包括:
根据所述多个第一样本数量的样本总数和所述每个第一样本数据的中间梯度向量,计算所述多个第一样本数量的平均梯度向量,所述平均梯度向量包括由多个所述中间梯度向量中所述每个特征对应的预测损失梯度值所计算的梯度平均值;
根据所述平均梯度向量和所述每个特征对应的权重,计算所述多个第一样本数据的目标梯度向量。
3.根据权利要求2所述的方法,其特征在于,所述目标梯度向量包括所述每个特征对应的目标梯度值;
所述根据所述平均梯度向量和所述每个特征对应的权重,计算所述多个第一样本数据的目标梯度向量,包括:
将所述平均梯度向量中所述每个特征对应的梯度平均值和所述每个特征对应的权重相乘,得到所述每个特征对应的目标梯度值。
4.根据权利要求1所述的方法,其特征在于,所述根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重之前,还包括:
获取多个第二样本数据,所述第二样本数据包括N个特征中每个特征对应的特征值;
在所述多个第二样本数据中,统计所述每个特征的有效特征值的数量,所述有效特征值为在第一阈值范围内的特征值。
5.根据权利要求4所述的方法,其特征在于,所述根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重,包括:
按照所述每个特征的有效特征值的数量,将所述N个特征划分为M个特征分组,所述M个特征分组中每个特征分组包含的特征的有效特征值的数量在第二阈值范围内,M为小于或等于N的正整数;
根据所述每个特征分组包含的特征的有效特征值的数量,确定所述每个特征分组的权重,且所述权重与所述有效特征值的数量成反比。
6.根据权利要求5所述的方法,其特征在于,所述根据所述每个特征分组包含的特征的有效特征值的数量,确定所述每个特征分组的权重,包括:
基于所述每个特征分组包含的特征的数量和有效特征值的数量,计算所述每个特征分组对应的有效特征值的平均数量;
根据所述每个特征分组对应的有效特征值的平均数量,确定为所述每个特征分组的权重,且所述权重与所述有效特征值的平均数量成反比。
7.根据权利要求4或5所述的方法,其特征在于,所述获取多个第二样本数据,包括:
获取样本数据集合,对所述样本数据集合进行抽样以得到多个第二样本数据。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述基于采用第一模型参数的预测模型,获取多个第一样本数据中每个第一样本数据的中间梯度向量之前,还包括:
获取样本数据集合,并对所述样本数据集合进行批次划分,获取目标批次中的多个第一样本数据。
9.一种预测模型训练装置,其特征在于,包括:
第一向量获取模块,用于通过应用平台产生用户查阅数据,通过用户查阅数据产生多个第一样本数据;多个第一样本数据是关于用户是否点击内容的数据,多个第一样本数据中对应的第一样本标签是指用户对该内容是否点击的结果;
所述第一向量获取模块,还用于基于采用第一模型参数的预测模型,对多个第一样本数据中每个第一样本数据进行预测,得到每个第一样本数据的用户点击概率,基于用户点击概率和第一样本标签之间的偏差确定每个第一样本数据的预测损失,通过计算每个第一样本数据的预测损失的梯度,得到多个第一样本数据中每个第一样本数据的中间梯度向量,所述第一样本数据包括N个特征;
权重获取模块,用于获取多个第二样本数据;所述第二样本数据和所述第一样本数据是基于同一应用场景下提取到的样本数据;所述第二样本数据包括N个特征中每个特征对应的特征值;
所述权重获取模块,还用于根据多个第二样本数据的有效特征值,获取所述N个特征中每个特征对应的权重,其中,所述第二样本数据与所述第一样本数据同属于一个样本数据集合;所述有效特征值为在第一阈值范围内的特征值,每个特征对应的权重与该特征的有效特征值的数量成反比;
第二向量获取模块,用于按照所述每个特征对应的权重、所述中间梯度向量、所述多个第一样本数据的样本总数,获取所述多个第一样本数据的目标梯度向量;
参数更新模块,用于根据所述目标梯度向量对所述第一模型参数进行更新,以得到第二模型参数,在所述应用平台中,通过包含所述第二模型参数的预测模型向用户提供被用户点击概率大的内容。
10.根据权利要求9所述的装置,其特征在于,所述中间梯度向量包括所述每个特征对应的预测损失梯度值;
所述第二向量获取模块包括:
向量计算单元,用于根据所述多个第一样本数量的样本总数和所述每个第一样本数据的中间梯度向量,计算所述多个第一样本数量的平均梯度向量,所述平均梯度向量包括由多个所述中间梯度向量中所述每个特征对应的预测损失梯度值所计算的梯度平均值;
向量获取单元,用于根据所述平均梯度向量和所述每个特征对应的权重,获取所述多个第一样本数据的目标梯度向量。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第一数据获取模块,用于获取多个第二样本数据,所述第二样本数据包括N个特征中每个特征对应的特征值;
数量统计模块,用于在所述多个第二样本数据中,统计所述每个特征的有效特征值的数量,所述有效特征值为在第一阈值范围内的特征值。
12.根据权利要求11所述的装置,其特征在于,所述权重获取模块包括:
分组单元,用于按照所述每个特征的有效特征值的数量,将所述N个特征划分为M个特征分组,所述M个特征分组中每个特征分组包含的特征的有效特征值的数量在第二阈值范围内,M为小于或等于N的正整数;
权重计算单元,用于根据所述每个特征分组包含的特征的有效特征值的数量,确定所述每个特征分组的权重,且所述权重与所述有效特征值的数量成反比。
13.根据权利要求12所述的装置,其特征在于,所述权重计算单元包括:
特征值计算子单元,用于基于所述每个特征分组包含的特征的数量和有效特征值的数量,计算所述每个特征分组对应的有效特征值的平均数量;
权重计算子单元,根据所述每个特征分组对应的有效特征值的平均数量,确定为所述每个特征分组的权重,且所述权重与所述有效特征值的平均数量成反比。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-8任意一项的方法步骤。
15.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-8任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810074890.9A CN108304354B (zh) | 2018-01-25 | 2018-01-25 | 一种预测模型训练方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810074890.9A CN108304354B (zh) | 2018-01-25 | 2018-01-25 | 一种预测模型训练方法及装置、存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304354A CN108304354A (zh) | 2018-07-20 |
CN108304354B true CN108304354B (zh) | 2021-08-24 |
Family
ID=62866331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810074890.9A Active CN108304354B (zh) | 2018-01-25 | 2018-01-25 | 一种预测模型训练方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304354B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817342A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 流行季预测模型的参数调整方法、装置、设备及存储介质 |
CN109934307B (zh) * | 2019-05-08 | 2021-04-09 | 北京奇艺世纪科技有限公司 | 视差图预测模型训练方法、预测方法、装置及电子设备 |
CN110232403B (zh) * | 2019-05-15 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 一种标签预测方法、装置、电子设备及介质 |
CN110689137B (zh) * | 2019-09-24 | 2022-11-25 | 网易传媒科技(北京)有限公司 | 参数确定方法、系统、介质和电子设备 |
CN110851581B (zh) * | 2019-11-19 | 2022-11-11 | 东软集团股份有限公司 | 一种模型参数确定方法、装置、设备及存储介质 |
CN111898682B (zh) * | 2020-07-31 | 2023-08-25 | 平安科技(深圳)有限公司 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
CN113824802B (zh) * | 2021-11-24 | 2022-04-01 | 之江实验室 | 一种去中心化分布式训练拓扑结构、训练系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589972A (zh) * | 2016-01-08 | 2016-05-18 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
CN107169534A (zh) * | 2017-07-04 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 模型训练方法及装置、存储介质、电子设备 |
CN107292186A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的模型训练方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9501759B2 (en) * | 2011-10-25 | 2016-11-22 | Microsoft Technology Licensing, Llc | Search query and document-related data translation |
US9286396B2 (en) * | 2013-07-26 | 2016-03-15 | Microsoft Technology Licensing, Llc | Query expansion and query-document matching using path-constrained random walks |
-
2018
- 2018-01-25 CN CN201810074890.9A patent/CN108304354B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589972A (zh) * | 2016-01-08 | 2016-05-18 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
CN107292186A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的模型训练方法和装置 |
CN107169534A (zh) * | 2017-07-04 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 模型训练方法及装置、存储介质、电子设备 |
Non-Patent Citations (2)
Title |
---|
"Predictive model of a reduced surface field p-LDMOSFET using neural network";Byunghwhan Kim 等;《Solid State Electronics》;20041215;第48卷(第12期);第2153-2157页 * |
"基于纵横交叉算法优化神经网络的负荷预测模型";孟安波 等;《电力系统保护与控制》;20160407;第44卷(第7期);第102-106页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108304354A (zh) | 2018-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304354B (zh) | 一种预测模型训练方法及装置、存储介质、电子设备 | |
US11531867B2 (en) | User behavior prediction method and apparatus, and behavior prediction model training method and apparatus | |
CN109902708B (zh) | 一种推荐模型训练方法及相关装置 | |
CN106651542B (zh) | 一种物品推荐的方法及装置 | |
CN108268934A (zh) | 基于深度学习的推荐方法和装置、电子设备、介质、程序 | |
CN110321422A (zh) | 在线训练模型的方法、推送方法、装置以及设备 | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN109299344A (zh) | 排序模型的生成方法、搜索结果的排序方法、装置及设备 | |
CN106251174A (zh) | 信息推荐方法及装置 | |
US11748452B2 (en) | Method for data processing by performing different non-linear combination processing | |
CN109189921B (zh) | 评论评估模型的训练方法和装置 | |
CN107203558B (zh) | 对象推荐方法和装置、推荐信息处理方法和装置 | |
CN110427560A (zh) | 一种应用于推荐系统的模型训练方法以及相关装置 | |
CN103761254A (zh) | 多领域服务主题匹配推荐方法 | |
CN113627846A (zh) | 一种库存调整方法、装置、电子设备及计算机可读介质 | |
CN106445954A (zh) | 一种业务对象的展示方法和装置 | |
CN112434188A (zh) | 一种异构数据库的数据集成方法、装置及存储介质 | |
CN112182370A (zh) | 物品类目信息推送方法、装置、电子设备和介质 | |
CN115797005A (zh) | 预测模型的训练、商品推荐方法、装置、电子设备及介质 | |
CN114936323A (zh) | 图表示模型的训练方法、装置及电子设备 | |
CN111667018B (zh) | 一种对象聚类的方法、装置、计算机可读介质及电子设备 | |
US20220198487A1 (en) | Method and device for processing user interaction information | |
CN116228301A (zh) | 一种目标用户的确定方法、装置、设备及介质 | |
CN110825859A (zh) | 检索方法、装置、可读存储介质和电子设备 | |
CN115907926A (zh) | 商品的推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |