CN109145245A - 预测点击率的方法、装置、计算机设备及存储介质 - Google Patents
预测点击率的方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109145245A CN109145245A CN201810837246.2A CN201810837246A CN109145245A CN 109145245 A CN109145245 A CN 109145245A CN 201810837246 A CN201810837246 A CN 201810837246A CN 109145245 A CN109145245 A CN 109145245A
- Authority
- CN
- China
- Prior art keywords
- prediction
- prediction model
- vector
- appropriateness
- input feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 375
- 230000006870 function Effects 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 39
- 238000012512 characterization method Methods 0.000 claims description 8
- 241000406668 Loxodonta cyclotis Species 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种预测点击率的方法、装置、计算机设备及存储介质,在该方法中,计算机设备获取用于预测目标用户对目标对象的点击概率的输入特征;依据该输入特征,分别确定多个预测模型用于预测该点击概率的适合程度;利用该多个预测模型分别预测该输入特征对应的预测点击率;依据该多个预测模型各自预测出的预测点击率以及该多个预测模型各自对应的适合程度,确定该目标用户对该目标对象的点击概率。本申请的方案可以提高预测用户对某个内容的点击概率的精准度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种预测点击率的方法、装置、计算机设备及存储介质。
背景技术
点击率是指网页中某一内容(如,新闻、广告或者产品详情页等等)被用户点击的次数与被显示次数之比,它反映的是该内容被用户点击的概率。而通过预测用户对某个内容的点击率,可以为是否向该用户推荐该内容相关的信息提供依据。
在预测用户对某个内容的点击率时,一般会依据用户的用户特征(如,用户年龄、性别等)以及该内容的内容特征(如,内容的类别、内容所包含的关键词等),还可以结合背景数据(如,点击时间、内容的展现位置等),并利用预先训练出的预测模型预测点击率。然而,由于用户的用户特征以及内容的内容特征的复杂度较高,而预测模型所适合的预测场景有限,很难保证预测出的点击率的精准度,使得预测出的点击率的精准度较低。
发明内容
有鉴于此,本申请提供了一种预测点击率的方法、装置、计算机设备及存储介质,以提高预测用户对某个内容的点击概率的精准度。
为实现上述目的,一方面,本申请提供了一种预测点击率的方法,包括:
获取用于预测目标用户对目标对象的点击概率的输入特征;
依据所述输入特征,分别确定多个预测模型用于预测所述点击概率的适合程度;
利用所述多个预测模型分别预测所述输入特征对应的预测点击率;
依据所述多个预测模型各自预测出的预测点击率以及所述多个预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率。
在一种可能的实现方式中,所述依据所述输入特征,分别确定多个预测模型用于预测所述点击概率的适合程度,包括:
依据特征与类别的函数关系,确定所述输入特征所归属的至少一个目标类别;
依据所述至少一个目标类别以及各个预测模型分别与不同类别的适合程度关系,分别确定多个预测模型用于预测所述点击概率的适合程度。
在一种可能的实现方式中,所述依据特征与类别的函数关系,确定所述输入特征所归属的至少一个目标类别,包括:
利用预先训练的编码器将所述输入特征转换为表征所述输入特征所属的类别信息的隐向量;
所述依据所述至少一个目标类别以及各个预测模型分别与不同类别的适合程度关系,分别确定多个预测模型用于预测所述点击概率的适合程度,包括:
依据所述隐向量以及预先训练出的各个预测模型各自对应的类别向量,分别确定多个预测模型适合预测所述点击概率的适合程度。
又一方面,本申请还提供了一种预测点击率的装置,包括:
特征获取单元,用于获取用于预测目标用户对目标对象的点击概率的输入特征;
适合度确定单元,用于依据所述输入特征,分别确定多个预测模型用于预测所述点击概率的适合程度;
点击率预估单元,用于利用所述多个预测模型分别预测所述输入特征对应的预测点击率;
点击概率确定单元,用于依据所述多个预测模型各自预测出的预测点击率以及所述多个预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率。
又一方面,本申请还提供了一种计算机设备,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取用于预测目标用户对目标对象的点击概率的输入特征;
依据所述输入特征,分别确定多个预测模型用于预测所述点击概率的适合程度;
利用所述多个预测模型分别预测所述输入特征对应的预测点击率;
依据所述多个预测模型各自预测出的预测点击率以及所述多个预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率。
又一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任一项所述的预测点击率的方法。
可见,在本申请实施例中,计算机设备中预置了多个预先训练好的预测模型,在获取到用于预测目标用户对目标对象的点击概率的输入特征之后,会先根据输入特征确定各个预测模型适用于对该输入特征预测点击概率的适合程度,这样,综合各个预测模型针对该输入特征预测出的预测点击率以及各预测模型的适合程度,有利于更为合理的确定出该目标用户对目标对象的点击概率,降低由于单个预测模型不适合对输入特征进行点击率预测而导致预测出的点击概率准确度偏低的情况,从而有利于提高预测出的点击概率的精准度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请中预测模型预测点击率的一种示意图;
图2示出了本申请实施例中预测点击率的系统的一种组成架构示意图;
图3示出了本申请实施例中一种预测点击率的方法的一种流程示意图;
图4示出了本申请预测点击概率的实现原理示意图;
图5示出了本申请一种预测模型预测点击率的方法的又一种流程示意图;
图6示出了本申请实施例中监督式变分编码器的神经网络实现示意图;
图7示出了本申请实施例中训练编码器、预测模型以及预测模型的类型向量的一种训练流程示意图;
图8示出了本申请实施例的一种预测点击率的方法所适用的一种应用场景的示意图;
图9示出了本申请实施例的一种预测点击率的装置一种组成示意图;
图10示出了本申请实施例的一种计算机设备的组成结构示意图。
具体实施方式
本申请的方案适用于预测用户对某个对象(如,新闻、广告、文章等)的点击概率(也称为点击率),并有利于提高预测出的用户对对象内容的点击概率的精准度。
本申请的发明人经研究发现:目前在预测点击率时,一般是预先训练出预测模型,然后利用该预测模型对待预测的输入特征进行预测,以得到相应的点击概率。由于训练好的预测模型中的内部参数是固定的,使得预测模型对于任意输入特征均采用相同的预测标准,而同一种预测标准所适合的预测场景非常有限,从而使得基于该预测模型并不适合对任意输入特征进行点击率预测,进而导致预测出的点击率的精准度较低。
如,输入特征一般会涉及到用户特征以及对象的对象特征,还可能会涉及到背景特征等特征维度,而不同用户对于不同对象的感兴趣程度会有所差异,甚至同一用户对于不同对象的感兴趣程度也会有存在明显差异,这就导致了输入特征的复杂性较高。而一款预测模型很难综合考虑所有输入特征的特性,从而使得预测模型可能针对某些输入特征的预测准确度较高,而针对其他输入特征,则无法准确预测出点击率,使得预测模型整体的预测精准度较低。
为了便于理解本申请发明人的以上研究发现,下面以预测点击率的预测模型为预先训练出的分解机(Factorization Machine,FM)模型为例进行说明。
在FM模型中,可量化特征直接采用数值描述,不可量化特征采用单热编码(OneHot Encoding)来描述。其中,单热编码是指将不可量化特征根据其可能的取值表示成一个高维向量,每个值对应的向量中只有一个元素是1,其他元素均为0。如,假设输入特征包括用户ID和对象ID两种,以共包括3个用户分别为张三、李四、王五,且共包括3个对象分别为A、B、C为例,则,用户ID的单热编码是一个3维向量其中,表示“张三”的向量为:【1,0,0】;表示“李四”的向量为【0,1,0】;表示“王五”的向量为【0,0,1】。类似地,对象ID的单热编码也是一个3维向量,其中,表示对象A向量为【1,0,0】,表示对象B的向量为【0,1,0】;表示对象C的向量为【0,0,1】。而在FM模型中,输入特征就是把用户ID和对象ID的单热编码拼接起来,即拼接出一个6维向量。例如,预测张三点击对象B的概率,则输入特征为张三的向量与对象B的向量组成的输入特征:【1,0,0,0,1,0】。
可以理解的是,实际应用中,输入该FM模型的输入特征除了不可量化特征之外,还会包括其他可量化的特征,在该种情况下,则需要将用单热编码表示的不可量化特征与可量化特征拼接为一个多维向量,该多维向量就是FM的输入特征。如,仍以上面的例子说明,如果输入特征除了包括用户ID和对象ID之外,还包括一个特征为价格,且假设价格为1.5,则张三在价格为1.5的前提下对于对象B的点击率所对应的输入特征可以由张三的向量【1,0,0】、对象B的向量【0,1,0】以及价格1.5拼接而成,即为:【1,0,0,0,1,0,1.5】。
在FM模型中,分解机为输入特征的每个维度维护一个向量,该向量称为特征向量。相应的,FM模型在基于输入特征预测点击率时,将输入特征中所有非零项所对应的特征向量提取出来,并基于提取出的特征向量进行预测计算。结合图1说明,其示出了本申请实施例中FM模型预测点击率的示意图。
由图1可以看出,输入特征的每个维度对应着一个特征向量,例如,输入特征中表示“张三”的维度上对应的向量为【1.1,0.5,0.8】,其表示在FM模型中对于张三这一用户对应的特征向量就是【1.1,0.5,0.8】。相应的,输入特征中表示李四的维度对应的特征向量为【-0.2,0.3,0.1】,与此类似,表示对象B的维度对应的特征向量为【-0.1,0.5,-0.2】,其他维度类似。由此可知,如果输入特征为【1,0,0,0,1,0】的情况下,输入特征的第一个维度和第5个维度为非零项,则由图1可以看出,FM模型会取出第一个和第五个维度所对应的特征向量进行预测计算,即基于【1.1,0.5,0.8】和【-0.1,0.5,-0.2】进行点击率的预测计算。
由以上可以看出,在训练好FM模型之后,该FM模型中的内部参数固定,即FM中各个维度所对应的特征向量也是固定不变的,这样,就是FM模型对于任意输入特征均采用相同的处理标准进行预测。例如,对于任意一个用户而言,该用户所对应的特征向量均是固定的,然而,同一用户对于不同类型的对象的喜好以及兴趣等均会有所不同,而无论预测用户对于何种类型的对象的点击率,该用户对应的特征向量均固定,则无法体现出该用户对于不同类型的对象的喜好以及兴趣等不同。当然,实际应用中,针对不同用户以及不同对象的输入特征的复杂度会更高,从而使得一个FM模型(对于其他模型类似)很难满足对于任意场景下的点击率预测。
基于发明人以上研究发现,本申请的发明人进一步研究发现:如果预先训练出多种预测模型,这样考虑到不同预测模型所适应的预测的输入特征会有所不同,因此,在获取到输入特征之后,根据各个预测模型适合对该输入特征进行预测的适合程度,以及各个预测模型针对该预测特征的预测结果,来综合确定得到最终的点击概率,以提高预测出的点击概率的精准度。
为了便于理解本申请的方案,先对本申请实施例中预测点击率的系统进行介绍。如参见图2,其示出了本申请一种预测点击率的系统的组成架构示意图。
由图2可知,该系统包括:计算机设备201。
其中,该计算机设备201,用于基于输入的输入特征,预测该输入特征所对应的点击概率。
如,该计算机设备可以为网络平台的服务器,该服务器在计算出该点击概率之后,可以基于用户对不同对象的点击概率,确定向用户推荐或展示的对象内容等。
又如,该计算机设备可以为与网络平台的服务器相连的计算节点,在该种情况下,计算节点可以将计算出的点击概率反馈给网络平台的服务器,以便服务器基于不同用户对于不同对象的点击概率,确定所需向各个用户推荐或者展示的对象等。
当然,该计算机设备还可以为独立的,且具备计算能力的设备,其可以预测点击率,以为用户数据分析等提供依据,在此对计算机设备的具体形式不加以限制。
在一种可能的情况下,该系统还可以包括:该数据存储设备202。
该数据存储设备202可以用于存储各种用于预测点击率所需的各种数据,如,用户的用户特征,对象的对象特征等等。
当然,该数据存储设备还可以用于存储计算机设备预测出的预测结果等数据。
结合以上共性,下面对本申请的一种预测点击率的方法进行介绍,如,参见图3,其示出了本申请一种预测点击率的方法一个实施例的流程示意图,本实施例从计算机设备侧介绍。
如图3所示,本实施例可以包括:
S301,获取用于预测目标用户对目标对象的点击概率的输入特征。
可以理解的是,由于点击率是指某个用户对某个对象的点击概率,因此,输入特征中至少包括用户的用户特征,以及对象的对象特征。本申请将需要预测点击概率的用户称为目标用户,并将预测该用户所点击的对象称为目标对象,相应的,该输入特征至少包括该目标用户的用户特征以及该目标对象的对象特征。
其中,目标用户的用户特征可以包括:目标用户的用户标识(如,ID,用户名等),还可以包括:目标用户的性别、年龄、学历、所处地区等等属性中的一种或者多种。
该目标对象可以为文章、新闻、广告等等任意需要预测点击概率的对象内容。该目标对象的对象特征可以包括:目标对象的标识(如,ID,名称等),还可以包括:目标对象所属类别、目标对象中所包含的关键词等等中的一种或者多种。
可以理解的是,大部分情况下,预测点击率是预测用户在某种背景环境中对于某个对象的点击概率,因此,该输入特征除了目标用户的用户特征以及目标对象的对象特征之外,还可以包括:背景特征。该背景特征为目标用户点击该目标对象的背景环境的相关数据,如,预测目标用户在目标时刻点击该目标对象的点击概率的情况下,该背景特征为目标时刻点;又如,预测目标用户在目标对象的商品价格为目标价格时,点击该目标对象的点击概率,则背景特征为目标价格;又如,预测目标用户在某个广告位下点击目标广告的点击概率的情况下,该背景特征可以为广告位的标识等相关属性。
可以理解的是,在所采用的预测点击率的预测模型的类型不同时,该输入特征的具体形式也会有所不同,如,在预测模型为FM模型的情况下,输入特征可以为各个维度特征对应的多个维度的向量;在预测模型为其他类型时,该输入特征也可以有其他形式,本申请对此不加以限制。同时,对于由用户数据以及对象数据等转换到符合预测模型的输入特征的具体过程也不加以限制。
S302,依据该输入特征,分别确定多个预测模型用于预测该点击概率的适合程度。
在本申请中,计算机设备中内置了多个预先训练出的预测模型,该多个预测模型不同。
其中,该多个预测模型不同可以是多个预测模型的类型不同,也可以是类型相同但是内部参数不同。如,多个预测模型可以由FM模型、基于神经网络的分解机(NeuralFactorization Machine,NFM),基于注意力方法的分解机(Attentional FactorizationMachine,AFM),以及卷积神经网络模型等等多种类型的模型中的两种或者多种类型组成。当预测模型的类型不同时,预测模型所适合预测点击率的输入特征也会有所差异。
可选的,为了便于比较各个预测模型适合预测点击率的场景,该多个预测模型可以为同种类型但是内部参数不同的多个预测模型。如,该多个预测模型均为预先训练出的FM模型,但是该多个FM模型中内部参数不同。
可以理解的是,不同预测模型由于类型或者内部参数的不同,使得预测模型适合预测不同输入特征的适合程度也会有所不同。相应的,针对某个输入特征而言,基于该输入特征,可以分析该多个预测模型适合预测点击率的适合程度,而适合程度越高的预测模型针对该输入特征所预测出的点击率的准确度也越高,从而有利于选取适合程度较高的一个或多个预测模型对该输入特征进行点击率预测,或者是,综合各个预测模型的适合程度以及预测出的点击率,来综合确定相应的点击概率,以提高预测出的点击概率的准确度。
可以理解的是,预测模型适合预测目标用户对目标对象的点击概率的适合程度也就是该预测模型适合对该输入特征进行点击率预测的适合程度。
其中,基于输入特征,分析各个预测模型的适合程度的具体方式可以有多种。在一种可能的情况中,可以预先分析或者训练出各个预测模型所适合的输入特征所具有的共性,然后基于该输入特征分别与各个预测模型各自适合的输入特征的共性相似性比较,以最终确定适合程度。
在一种可能的实现方式中,还可以预先训练出输入特征与类别(也可以称为输入特征的特征类别)之间的函数关系,以及各个预测模型分别与不同类别的适合程度关系等。相应的,可以依据特征与类别的函数关系,确定出该输入特征所归属的至少一个目标类别;然后,依据该输入特征所归属的该至少一个目标类别,以及各个预测模型分别与不同类别的适合程度关系,确定各个预测模型用于对该输入特征进行预测的适合程度。
例如,针对一个预测模型,依据该预测模型分别与该至少一个目标类型的适合程度关系,计算该预测模型与该至少一个目标类型的适合程度的平均适合程度,将该平均适合程度作为适合该输入特征的适合程度。
可选的,为了更为清晰的表征输入特征与类别之间关系,可以预先训练出编码器,并通过该编码器将该输入特征转换为表征该输入特征所属类别信息的向量,为了便于区分,将编码器将输入特征转换出的向量称为隐向量。相应的,还可以预先训练出各个预测模型对应的类别向量,预测模型的类别向量用于表征该预测模型所适合预测的输入特征所归属的类别信息。相应的,依据该隐向量以及预先训练出的各个预测模型对应的类别向量,可以分别确定出各个预测模型适合对该输入特征进行预测的适合程度。
如,分别计算该隐向量与各个预测模型各自对应的类别向量之间的向量距离,得到各个预测模型与隐向量之间的向量距离。其中,预测模型与隐向量之间的向量距离便可以反映出该预设模型对于该输入特征的适合程度。例如,预测模型对应的向量距离越小,该预测模型的适合程度越高。相应的,基于各个预测模型对应的向量距离,可以分别确定多个预测模型适合预测该点击概率的适合程度。
其中,编码器、预测模型对应的类别向量以及各个预测模型均可以利用多个已标注点击率的输入特征进行循环训练得到。具体可以参见后续关于训练编码器、预测模型等的相关介绍。
可以理解的是,预测模型的适合程度可以通过多种形式表现出来。如,将适合程度分为不同的适合等级,以得到各个预测模型对应的适合等级。又如,预测模型的适合程度可以为适合度分数。可选的,为了能够更为直观的比较出各个预测模型的适合程度的大小,该适合程度可以为预测模型适合对该输入特征进行预测的权重,该权重大小表征不同的适合程度。其中,该多个预测模型的权重总和为1。
S303,利用该多个预测模型分别预测该输入特征对应的预测点击率。
由于本申请的每个预测模型都会预测出一个点击率,而该预测模型预测出的点击率并不会直接作为该目标用户对该目标对象的点击概率,因此,为了便于区分,将利用预测模型预测出的点击率称为预测点击率。
如,将输入特征依次输入到各个预测模型,以使得每个预测模型分别针对输入的输入特征输出一个预测点击率。
其中,预测模型不同时,预测模型对输入特征进行预测的过程也会有所不同。如,在预测模型为FM模型的情况下,可以按照前面所述提取出输入特征中各个维度的非零项所对应的特征向量,再按照该FM模型中函数式对该抽取出的特征向量进行预测计算,例如,计算提取出的各个特征向量中两两之间的内积,并对得到的内积求和得到预测结果。可以理解的是,在预测模型确定的情况下,将输入特征输入预测模型便可以输出相应的预测点击率,本申请对于预测模型对输入特征的处理过程不加以限制。
可选的,还可以先依据各个预测模型对应的适合程度,从多个预测模型中选取出适合预测点击概率的至少一个目标预测模型;然后,仅仅利用该至少一个目标预测模型分别预测该输入特征对应的预测点击率。相应的,后续可以利用该至少一个目标预测模型预测出的预测点击率以及各自的适合程度,确定最终的点击概率。
S304,依据该多个预测模型各自预测出的预测点击率以及该多个预测模型各自对应的适合程度,确定该目标用户对该目标对象的点击概率。
可以理解的是,依据各预测模型的适合程度,有利于结合各个预测模型预测出的预测点击率,综合确定出目标用户对目标对象的点击概率,以有利于提高确定出的点击概率的准确度。
其中,结合各个预测模型的适合程度以及预测出的预测点击率,确定最终点击概率的方式可以有多种。在一种可能的实现方式中,可以依据该多个预测模型的适合程度,选取出适合程度较高的至少一个目标预测模型,并利用该至少一个目标预测模型的预测点击率,来确定该目标用户对该目标对象的点击概率。例如,求取该至少一个目标预测模型的预测点击率,得到预测点击率的平均值,并将预测点击率的平均值确定为该目标用户对目标对象的点击概率。又如,选取适合程度最高的一个预测模型作为目标预测模型,并将该目标预测模型预测出的预测点击率作为最终预测出的点击概率。
又如,在另一种可能的实现方式中,根据各个预测模型的适合程度,分别确定每个预测模型的权重。当然,如果前面步骤中,通过预测模型的权重表征出预测模型的适合程度,则无需重复执行确定预测模型的权重的操作。相应的,可以依据该多个预测模型各自对应的权重,对多个预测模型预测出的预测点击率进行加权求和,并将加权求和所得的结果确定为该目标用户对所述目标对象的点击概率。
进一步的,在进行加权求和之前,还可以先根据预测模型的适合程度,筛选出适合程度较高的至少一个目标预测模型,并基于该至少一个目标预测模型的适合程度,分别确定各个目标预测模型的权重,然后基于各个目标预测模型的权重,对该至少一个目标预测模型的预测点击率进行加权求和,并将加权求和结果作为目标用户对目标对象的点击概率。
当然,在实际应用中,基于各个预测模型预测出的点击概率以及各自的适合程度,综合确定该点击概率的方式还可以有其他方式,本申请对此不加以限制。
由以上可知,在本申请实施例中,计算机设备中预置了多个预先训练好的预测模型,在获取到用于预测目标用户对目标对象的点击概率的输入特征之后,会先根据输入特征确定各个预测模型适用于对该输入特征预测点击概率的适合程度,这样,综合各个预测模型针对该输入特征预测出的预测点击率以及各预测模型的适合程度,有利于更为合理的确定出该目标用户对目标对象的点击概率,降低由于单个预测模型不适合对输入特征进行点击率预测而导致预测出的点击概率准确度偏低的情况,从而有利于提高预测出的点击概率的精准度。
为了便于理解本申请的方案,下面以各个预测模型均为预先训练出的FM模型为例进行说明,其中,多个FM模型的内部参数不同,也使得不同FM模型针对不同输入特征的适合程度也存在差异。
如,参见图4,其示出了本申请预测点击概率的实现原理示意图。由图4可以看出,本申请中计算机设备内预置了m个预先训练出的FM模型,分别表示为FM1、FM2到FMm,其中,m为大于等于2的自然数。同时,预先训练出表征FM模型所适合的输入特征所具有的类别信息的类别向量,如,FM1模型的类别向量为类别向量1,FM2的类别向量为类别向量2,依次类推,FMm的类别向量为类别向量m。
为了确定出输入特征所属的类别信息,计算机设备中还预置了预先训练出的编码器。
下面结合图4,以预测点击率的方法的一种流程为例进行详细介绍。如。参见图5,其示出了本申请一种预测点击率的方法又一种流程示意图,本实施例的方法可以应用于本申请所提到的计算机设备,本实施例的方法可以包括:
S501,获取用于预测目标用户对目标对象的点击概率的输入特征。
与前面相似,该输入特征可以参见前面的相关介绍,在此不在赘述。
如图4所示,最左侧为输入的待预测点击概率的输入特征,在本实施例中,该输入特征为一个向量,该输入特征可以参照前面输入图1所示中FM模型的输入特征相关的方式得到,在此不再赘述。
S502,利用预先训练出的编码器将输入特征转换为隐向量。
该隐向量用于表征输入特征所属的类别信息。如,隐向量表征输入特征属于哪些目标类别,或者输入特征属于哪些类别的概率大小等等。
在本申请实施例中,编码器输出的隐向量可以满足如下两个条件:
(1)、隐向量可对点击率预估提供一些信息。这样,由于编码器已经实现了部分预估功能,FM模型就可以关注于更细致的特征,以便实现更精确的预估;
(2)隐向量可以构成一个高维的正态分布,这样可以保证各个维度之间是独立同分布的,从而避免出现某个维度的变化过小,被其他维度淹没的问题,从而使得后续隐向量与FM模型的类别向量的距离的有效性更容易保证。
如,参见图4,该输入特征会输入该编码器,而编码器可以输出一个隐向量。
其中,预先训练好的编码器中设置有用于将输入特征转换为隐向量的转换函数,基于该转换函数可以将输入特征转换为隐向量。如,隐向量z的函数式可以表示如下:
z=g(x;Θg) (公式一);
其中,g表示编码器的函数,Θg为该编码器中内置参数,该内置参数通过预先训练得到,x表示输入特征。
其中,根据编码器的不同,编码器的函数g也会有所不同。为了便于理解,以编码器为监督式变分编码器(Supervised Variational Encoder,SVE)为例进行说明。如图6,其示出了SVE的神经网络实现示意图。
由图6可以看出,SVE包括编码环节、抽样环节和预测环节。其中编码环节用于对输入特征进行编码,以得到隐向量。而抽样环节和预测环节是训练SVE模型以保证编码环节对输入特征进行正确编码,以得到精度较高的隐向量。下面对这几个环节进行介绍。
(1)、编码环节
编码环节包括交互层和一个单隐层神经网络。
其中,交互层的输出为:
其中,f=1,…,ke,ke是交互层的输出维度,是与输入特征xj对应的特征向量。在本申请中,我们把交互层简记为向量形式le。
其中,交互层的向量会经过一个单隐层的神经网络。而神经网络的输出包括两个向量为μ和Σ,具体的:
μ=Wμp+bμ (公式三);
Σ=(WΣp+bΣ)I (公式四);
其中,p=σ(Wple+bp) (公式五);
其中,σ为神经元激活函数,如可以为sigmoid函数,线性整流函数(RectifiedLinear Unit,ReLU)等激活函数。Wp,bp,Wμ,bμ,WΣ,bΣ均为待学习(或者说待训练)的矩阵参数(公式一中的内置参数Θg也属于这部分矩阵参数)。其中,I为一种数据函数,其表示将向量转化为一个对角矩阵,在该公式四中,Σ表示的是一个正态分布的协方差矩阵,它必须是一个矩阵,而不能是个向量,因此,需要将向量(WΣp+bΣ)转换为矩阵。
在该神经网络层输出的向量μ就是隐向量,也就是说公式三就是前面公式一的一种具体的函数形式。
由以上可以看出,该编码环节除了得到隐向量之外,还输出了一个方差项Σ。这个方差项会在后续的抽样环节以及该编码器对应的目标函数中体现,以通过不断学习(或者说训练)保证隐向量的正态分布特性。
(2)、抽样环节
该抽样环节会抽取一个标准正态分布量ò~N(0,I),然后按如下公式六计算z′:
由此抽取的z′实际上满足正态分布P(z|x)=N(μ(x),Σ(x)),x为输入特征。该抽样环节的输出会用于预测环节,它用于保证隐向量即使经过一定的扰动,也能用于反映点击率的信息。
(3)、预测环节
预测环节是一个单隐层神经网络,其结构表示如下:
其中,q=σ(Wqz′+bq) (公式八);
其中,Wq,bq,h均为待学习(待训练)参数。
(4)、编码器对应的目标函数
图6所示的编码器的结构是一种常见的神经网络结构,可以采用通用的神经网络训练方法来学习。基于此,该编码器对应的神经网络的一种目标函数可以为:
其中,公式九中加号左侧的这一项表示KL散度,用于反映P(z|x)与正态分布的差距。在实际应用中,KL散度的计算公式为:
其中,k为隐向量的维数,是一个超参数。tr表示矩阵的迹,det表示行列式。
而公式九中加号右侧的这一项表示损失函数,其反映了预测的准确性。由于此处的是通过前面公式七计算得到,该项实际上保证了隐向量对点击率预估能提供一定的信息。
通过对以上监督式变分编码器的网络模型训练完毕,就可以将公式三编码器g的具体函数式,以用于求取隐向量。
可以理解的是,以上仅仅是为了便于理解,以编码器为监督式变分编码器为例进行介绍,但是对于编码器为其他形式的编码器时,也同样适用于本实施例。
其中,编码器(如上面例子中的监督式变分编码器)的训练方式可以有多种,本申请后续将以通过训练样本一并对编码器、FM模型以及FM模型的类别向量进行训练为例进行介绍。
S503,获取预先训练得到的多个FM模型各自对应的类别向量,并计算各个FM模型的类别向量分别与该隐向量之间的向量距离。
其中,FM模型的类别向量用于表征该FM适合的不同输入特征所具有的类别信息,该FM所适合的输入特征所具有的共性,或者所适合的输入特征所划归到的至少一个类别等等。
FM模型的类别向量与隐向量之间的向量距离可以反映出该输入特征所属的类别信息与该FM模型所属的类别之间的相似性。因此,FM模型的类别向量与隐向量之间的向量距离,可以反映出FM模型适合对该输入特征进行点击率预测的适合程度。
其中,计算该FM模型的类别向量与该隐向量之间的向量距离的方式可以有多种,如可以采用欧氏距离,曼哈顿距离等计算向量距离,在此不加以限制。
可以理解的是,FM模型的类别向量可以预先训练得到。
S504,依据各个FM模型的类别向量分别与隐向量之间的向量距离,分别确定各个FM模型的权重。
其中,为了量化各个FM模型对于当前待预测的该输入特征的适合程度,也为了后续综合各个FM模型对应的权重,综合确定最终的点击概率,本申请会基于各个FM模型所对应的向量距离,来确定各个FM模型的权重。
其中,该多个FM模型的权重的总和为1。且,FM模型对应的权重越大,该FM模型适合针对当前输入的该输入特征进行预测的适合程度越高。
如,结合图4可以看出,计算机设备计算出输入特征的隐向量之后,会计算该隐向量与各个FM模型对应的类别向量之间的向量距离,然后基于各个FM模型对应的向量距离,分别确定出各个FM模型对应的权重。如图4所示,基于各个FM模型的类别向量与隐向量的向量距离,进行权重计算得到,FM1的权重为r1,FM2的权重为r2,FMm的权重为rm等。
可以理解的是,基于各个FM对应的向量距离,分别确定各个FM模型的权重的具体实现方式可以有多种,本申请对此不加以限制。
其中,将第i个FM模型对应的类别向量记为其中,1≤i≤m,m为预置的FM模型的个数。权重γi可以记作隐向量z与FM模型的类别向量的函数,其可以表示为如下公式十一所示的形式:
其中,该公式十一所对应的函数形式同样可以有多种可能。
为了便于理解,本申请以一种确定权重的方式为例进行说明。
如,本申请可以基于k*-近邻(k*Nearest Neighbor,k*-NN r)算法的权重确定方式来确定各个FM模型对应的权重。具体的,将第i个FM模型的类别向量与隐向量z的距离记作我们采用k*-近邻方法来获取权重γi,也就是最小化如下目标函数:
其中,C为误差上界,L为预测函数的李普希茨常数,均为超参数。L和C均为预先确定。||γ||2表示2-范数。公式十二中的该目标函数的第一项(加号左侧的部分)是使局部编码趋于平均化,避免过拟合;而该目标函数的第二项(加号右侧的部分)是使局部编码向距离较近的点集中。因此,该目标函数是两者平衡的结果。可以证明,该目标函数能够在一定假设下最小化局部线性组合的预测误差。
公式十二的目标函数可以通过如下方式求解,最终推导出权重γi的计算函数:
其中,
λ*=min{λi|λi>βi+1,1≤i<m} (公式十五);
其中,
经过以上推导所得的公式十三就是一种计算权重,即公式十一的一种具体的函数表达式,通过该公式十三,可以依次计算出各个FM模型对应的权重。
S505,将输入特征分别输入到各个FM模型中,得到各个FM模型分别输出的预测点击率。
该步骤可以参照前面实施例的相关介绍,在此不再赘述。
需要说明的是,该步骤S505的执行顺序并不限于图5所示,在实际应用中,可以在执行前面步骤S502到步骤S504之前或者任意一个步骤的过程中,执行该步骤S505。
如,参见图4所示,在输入特征输入到该编码器,以确定输入特征对应隐向量的同时,输入特征可以分别输入各个FM模型。相应的,各个FM模型分别对该输入特征进行点击率预测,以得到相应的预测点击率。如图4所示,FM1输出预测点击率1,FM2输出预测点击率2,FMm输出预测点击率m,其他FM模型类似。
S506,依据各个FM模型的权重,对该多个FM模型输出的预测点击率进行加权求和,并将加权求和所得的结果确定为该目标用户对该目标对象的点击概率。
如,该目标用户对该目标对象的点击概率Y可以表示为如下:
其中x为输入特征,fGLLFM(x)为预测该目标用户对目标对象的点击概率的预测函数,其等于预置的m个预测模型的加权求和。flocal(x;Θi)为第i个预测模型的函数表达式,其输出为该第i个预测模型输出的预测点击率。其中采用Θi表示第i个预测模型的内部参数,内部参数预先通过训练得到。
γi(x)为在输入特征x的情况下,第i个预测模型的权重,所有预测模型的权重的和应为1。
在图5实施例中预测模型为FM模型,则该公式十七中flocal(x;Θi)表示第i个FM模型的函数表达式,其输出为该第i个FM模型输出的预测点击率。相应的,flocal(x;Θi)中的内部参数就是前面图1中各个维度所对应的特征向量,其通过预先训练得到。
需要说明的是,图5是以预测模型为FM模型为例进行说明,但是将预测模型替换为其他模型也同样适用,其过程与图5实施例相同,在此不再赘述。相应的,图5是以各个预测模型均为FM模型,即为同一类型的预测模型为例说明,但是当预置的多个预测模型不是全部属于同一类型的预测模型,其预测点击概率的过程相同,在此不再赘述。
可以理解的是,编码器、预测模型的类别向量以及预测模型可以单独训练。可选的,为了提高最终预测出的点击概率的准确度,可以利用已标注点击率的多个输入特征样本来循环训练,直至最终确定出编码器以及预测模型的内部参数,并确定出预测模型的类别向量。
如,在图5中可以认为将获取到待预测的输入特征之后,将输入特征输入到一个预测模型系统,该预测模型系统包括预先训练出的多个预测模型(如,FM模型),以及预先训练得到的各个FM模型的类别向量以及该编码器。相应的,通过该预测模型可以执行如图5所示的步骤S502到步骤S506的操作,直至最终输出该点击概率。在该种情况下,可以利用已标注点击率的多个输入特征样本对该预测模型系统进行循环训练,以最终确定预测模型系统中各个预测模型各自的内部参数,编码器的参数以及预测模型各自的类别向量,以及权重计算公式所涉及到的函数等等。
可以理解的是,在训练样本确定的情况下,训练该预测模型系统中编码器、预测模型等涉及到的相关参数的过程的具体训练方式可以有多种。
为了便于理解,下面以采用梯度下降法进行模型训练为例,对本申请训练编码器、预测模型、预测模型的类别向量的训练过程进行介绍。为了便于描述,以待训练的编码器为待训练的监督式变分编码器,以待训练的各个预测模型均待训练的FM模型为例。如,参见图7,其示出了本申请实施例中训练编码器、预测模型以及预测模型的类别向量的一种训练过程示意图。在图7为了便于描述,以通过对预测模型系统训练,以训练得到预测模型系统中的监督式变分编码器、预测模型、预测模型中的类别向量为例介绍。该训练过程可以包括:
S701,获得用于训练的已标注真实点击率Y的多个输入特征样本。
如,输入特征样本x1的真实点击率为Y1,输入特征样本x2的真实点击率为Y2等等。
S702,为预测模型系统中的监督式变分编码器分配初始的内部参数Θg。
S703,对于每个输入特征样本,利用分配有初始的内部参数Θg的监督式变分编码器确定该输入特征样本对应的隐向量z,得到多个输入特征样本的隐向量z。
S704,对多个隐向量z进行K-means聚类,以聚类出m个聚类,并将这m个聚类的聚类中心分别作为m个FM模型对应的初始类别向量。
其中,K-means聚类是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准k个聚类的一种算法。在本申请中k设定为m,m为待训练的FM模型的个数。
通过对该多个隐向量进行聚类,可以将所表征的类别信息相似的至少一个隐向量聚为一聚类,从而使得聚为一聚类的隐向量相似。而将一个聚类的聚类中心作为一个FM模型对应的初始类别向量,实际上是先假设该FM模型为适合对该聚类内的隐向量所对应的输入特征进行预测的FM模型,并为了表征该FM所适合的类别信息,则将该聚类的聚类中心作为该FM模型对应的类别向量。相应的,后续通过不断训练,各个输入特征样本的隐向量会发生变化,而各个FM模型的类别向量也会发生变化,直至最终训练结束,FM模型的类别向量也就是确定下来。
本申请实施例是以采用K-means聚类对步骤S703得到的多个隐向量进行聚类为例,在实际应用中,还可以采用其他聚类算法对于该多个隐向量进行聚类,在此不加以限制。
S705,从多个输入特征样本中选取一个当前待训练的目标输入特征样本,并将该目标输入特征样本输入到该预测模型系统,以得到该预测模型系统预估出的预估点击率
其中,为了便于区分,将输入特征样本中当前待训练的输入特征样本称为目标输入特征样本。
可以理解的是,目标输入特征样本输入到该预测模型系统之后,该预测模型系统会按照前面图4所示处理对该目标输入特征样本进行处理,即可以按照步骤S502到S506的步骤输出该目标输入特征样本对应的预测点击率。
具体的,预测模型系统将该目标输入特征样本输入到待训练的监督式变分编码器,以得到该目标输入特征样本的隐向量。其中,该待训练的监督式变分编码器基于当前设定的内部参数,输出相应的隐向量,例如,如果是首轮训练,则该监督式变分编码器的内部参数为初始的内部参数。然后,预测模型系统通过权重计算模块分别计算该隐向量与各个待训练的FM模型当前的类别向量之间的向量距离,并由权重计算模块中的权重计算函数依据各个待训练的FM模型对应的向量距离,确定各个待训练的FM模型的权重。与此同时,通过预测模型系统将该目标输入样本分别输入到各个待训练的FM模型中,以得到各个待训练的FM模型预估出的预测点击率。其中,每个待训练的FM模型基于当前设置的内置参数进行点击率预测。相应的,通过预测模型系统计算各个FM模型的预测点击率的加权和,并将加权和作为该目标输入特征对应的预估点击率
S706,基于该预测模型系统预估出的预估点击率与该目标输入特征样本的真实点击率Y,计算损失函数的输出结果。
其中,利用损失函数可以用于评估预测点击率与真实点击率的差异程度等。该损失函数的具体形式可以根据需要设定,本申请对此不加以限制。如,损失函数可以为对数几率函数
S707,如果基于损失函数的输出结果分析出该预测模型系统已经收敛,则确定训练完成;否则,则执行步骤S708。
如果通过预估点击率与真实点击率的比较,并计算损失函数,可以分析出该预测模型系统预测出的点击率的准确度是否符合要求,如果符合要求,则说明已经收敛,此时,则说明训练完成,在该种情况下,各个FM模型当前的内部参数就是最终各个FM模型中训练得到的最终内部参数,相应的监督式变分编码器的内部参数以及FM模型对应的类别向量也就确定了。如果分析出预测模型系统仍未收敛,则需要调整监督式变分编码器以及FM模型的内部参数,以及FM模型对应的类别向量,重新进行训练。
S708,更新预测模型系统中的监督式变分编码器的内部参数、各个FM模型的内部参数以及各个FM模型对应的类别向量,并返回步骤S705,直至收敛。
其中,FM模型中的内部参数Θi,监督式变分编码器的内部参数Θg以及FM模型的类别向量分别可以通过如下方式更新:
其中,ρθ,ρz,ρg均为预先设定的学习率。flocal为待训练的FM模型当前的函数表达式,γi为权重计算函数;l表示预设的损失函数。
相应的,公式十八表示将作为FM模型更新后的内部参数Θi;
其中,flocal(x;Θj)表示在输入特征为目标输入特征样本x时,第j个待训练的FM模型所对应的函数表达式,Θj为第j个待训练的FM模型的内部参数;表示第i个待训练的FM模型的类别向量,γj权重计算函数。
相应的,公式十九是指将作为第i个待训练的FM模型对应的更新后的类别向量。
其中,z表示监督式变分编码器的函数表达式;Θg为监督式变分编码器的内部参数,也即z中的内部参数。
相应的,公式二十是指将作为监督式变分编码器更新后的内部参数。
可以理解的是,以上更新编码器以及预测模型等内部参数的方式仅仅是一种参数更新方式,在实际应用中,还可以有其他参数更新方式,在此不加以限制。
需要说明的是,图7仅仅是以一种训练编码器、预测模型以及预测模型的类别向量等的一种训练方式为例进行说明,但是可以理解的,在基于已标注真实点击率的输入特征样本,通过其他方式训练编码器、预测模型以及相应的类别向量的方式也同样适用于本实施例,对此不加以限制。
可以理解的是,计算机设备在确定出目标用户对目标对象的点击概率之后,计算机设备还可以依据该点击概率,确定是否向该目标用户所在的终端推荐该目标对象,如果需要推荐则向该终端的推荐界面中显示该目标对象。在实际应用中,计算机设备可以分别确定目标用户对多个不同目标对象的点击概率,以确定需要向目标用户推荐哪些对象。
可以理解的是,计算机设备还可以是在确定出目标用户访问某个推荐平台时,分别确定该目标用户对于某一个或者多个目标对象的点击概率,并根据目标用户对不同目标对象的点击概率,向该目标用户的终端推荐对象。或者是,计算机设备可以预先确定出目标用户对不同目标对象的点击概率,这样,当检测到该目标用户登录该推荐平台时,可以利用预先预测出的该目标用户对于不同目标对象的点击概率,向目标用户的终端进行对象推荐。
为了便于理解,可以参见图8,其示出了本申请的预测点击率的方法所适用的一种应用场景的示意图。
在图8的场景中包括:终端810和推荐平台820。
其中,推荐平台820包括至少一台服务器821,以及至少一台数据存储设备822。
该推荐平台为用于向用户推荐新闻、文章或者广告等对象内容的网络平台,如,该推荐平台可以为新闻网站,在用户通过终端810访问该新闻网站之后,新闻网站中的服务器可以向用户推荐适合用户的新闻。
该推荐平台的服务器821相当于前面提到的计算机设备,其可以分析不同用户在不同背景数据的情况下对于不同对象的点击概率,并基于点击概率确定所需向用户推荐的对象内容等。其中,该推荐平台的服务器821中预置了多个预先训练得到的预测模型,当然,还可以预置有前面所提到的编码器以及各个预测模型对应的类型向量等。
该数据存储设备822可以用于存储推荐平台所涉及到的各种对象的对象特征,推荐平台中用户的用户特征以及一些背景特征等。
相应的,如图8所示,在S81部分中,用户可以通过终端810登录并访问该推荐平台,以访问该推荐平台所能提供的新闻、文章以及广告等等内容。
在S82部分中,推荐平台的服务器821在确定用户通过终端访问该推荐平台之后,可以基于该用户的标识,从数据存储设备请求输入特征。其中,请求的输入特征可以包括该用户的用户特征,以及待预测的至少一个对象的对象特征,当然,还可以有背景特征等,以请求得到至少一个待预测的输入特征。其中,每个输入特征至少可以包括该用户的用户特征以及至少一个对象的对象特征,还可以包括相关背景的背景特征等。
在该S83部分中,推荐平台的数据存储设备822将至少一个待预测的输入特征返回给该服务器821。
在该S84部分中,推荐平台的服务器821会针对每个输入特征,预测该用户对该输入特征对应的对象的点击概率,从而得到用户对于至少一个不同对象的点击概率;基于该用户点击不同对象的点击概率,服务器821可以从该至少一个对象中,确定可推荐给用户的推荐对象等信息。如,将点击概率较高的指定数量个对象作为待推荐对象,并将该待推荐对象的链接信息以及相关提示信息等推荐用户。
相应的,在该S85部分,服务器821可以将基于预测出的用户分别对于不同对象的点击概率所确定出的推荐对象的相关信息推荐给用户所在的终端,以在终端中展现出推荐对象的信息,以便用户根据需要选择点击某个对象,以阅读或者浏览相关信息。
另一方面,本申请还提供了一种预测点击率的装置。如,参见图9,其示出了本申请一种预测点击率的装置一个实施例的组成结构示意图,本实施例的装置可以包括:
特征获取单元901,用于获取用于预测目标用户对目标对象的点击概率的输入特征;
适合度确定单元902,用于依据所述输入特征,分别确定多个预测模型用于预测所述点击概率的适合程度;
点击率预估单元903,用于利用所述多个预测模型分别预测所述输入特征对应的预测点击率;
点击概率确定单元904,用于依据所述多个预测模型各自预测出的预测点击率以及所述多个预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率。
在一种可能的实现方式中,所述适合度确定单元,包括:
类别确定子单元,用于依据特征与类别的函数关系,确定所述输入特征所归属的至少一个目标类别;
适合度确定子单元,用于依据所述至少一个目标类别以及各个预测模型分别与不同类别的适合程度关系,分别确定多个预测模型用于预测所述点击概率的适合程度。
在一种可选方式中,所述类别确定子单元,包括:
向量转换子单元,用于利用预先训练的编码器将所述输入特征转换为表征所述输入特征所属的类别信息的隐向量;
所述适合度确定子单元,具体为用于依据所述隐向量以及预先训练出的各个预测模型各自对应的类别向量,分别确定多个预测模型适合预测所述点击概率的适合程度。
进一步的,适合度确定子单元,可以包括:
距离计算子单元,用于分别计算所述隐向量与预先训练出的各个预测模型各自的类别向量之间的向量距离;
距离分析子单元,用于基于各个预测模型对应的向量距离,分别确定多个预测模型各自适合预测所述点击概率的适合程度。
在一种可能的实现方式中,在以上任意一个装置的实施例中,所述预测模型适合预测所述点击概率的适合程度为所述预测模型适合预测点击概率的权重,所述权重的大小表征不同的适合程度;
相应的,点击概率确定单元可以包括:
点击率加权单元,用于依据所述多个预测模型各自对应的权重,对多个预测模型预测出的预测点击率进行加权求和,将加权求和所得的结果确定为所述目标用户对所述目标对象的点击概率。
在一种可能的实现方式中,所述点击率预估单元,包括:
模型筛选子单元,用于依据各个预测模型对应的适合程度,从所述多个预测模型中选取出适合预测所述点击概率的至少一个目标预测模型;
点击率预估子单元,用于利用所述至少一个目标预测模型分别预测所述输入特征对应的预测点击率;
所述点击概率确定单元,包括:
概率确定子单元,用于依据所述至少一个目标预测模型预测出的预测点击率以及所述至少一个目标预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率。
另一方面,本申请还提供了一种计算机设备,该计算机设备可以为前面提到的服务器,或者,是前面提到的终端。如,参见图10,其示出了本申请一种计算机设备一种组成结构示意图。
由图10可以看出,该计算机设备1000至少包括:处理器1001和存储器1002。
该处理器1001,可以为中央处理器(Central Processing Unit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
其中,所述处理器1001用于执行所述存储器中存储的程序;
存储器1002中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令。
在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获取用于预测目标用户对目标对象的点击概率的输入特征;
依据所述输入特征,分别确定多个预测模型用于预测所述点击概率的适合程度;
利用所述多个预测模型分别预测所述输入特征对应的预测点击率;
依据所述多个预测模型各自预测出的预测点击率以及所述多个预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率。
在一种可能的实现方式中,该存储器1002可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如数据展现等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据,比如,训练出的模型等。
该存储器1002可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
可选的,该计算机设备还可以包括通信接口1003、输入单元1004和显示器1005和通信总线1006。
处理器1001、存储器1002、通信接口1003、输入单元1004、显示器1005、均通过通信总线1006完成相互间的通信。
当然,图10所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定,在实际应用中计算机设备可以包括比图10所示的更多或更少的部件,或者组合某些部件。
另一方面,本申请还提供了一种存储介质,该存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现如上任意一个实施例中所描述的预测点击率的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种预测点击率的方法,其特征在于,包括:
获取用于预测目标用户对目标对象的点击概率的输入特征;
依据所述输入特征,分别确定多个预测模型用于预测所述点击概率的适合程度;
利用所述多个预测模型分别预测所述输入特征对应的预测点击率;
依据所述多个预测模型各自预测出的预测点击率以及所述多个预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率。
2.根据权利要求1所述的预测点击率的方法,其特征在于,所述依据所述输入特征,分别确定多个预测模型用于预测所述点击概率的适合程度,包括:
依据特征与类别的函数关系,确定所述输入特征所归属的至少一个目标类别;
依据所述至少一个目标类别以及各个预测模型分别与不同类别的适合程度关系,分别确定多个预测模型用于预测所述点击概率的适合程度。
3.根据权利要求2所述的预测点击率的方法,其特征在于,所述依据特征与类别的函数关系,确定所述输入特征所归属的至少一个目标类别,包括:
利用预先训练的编码器将所述输入特征转换为表征所述输入特征所属的类别信息的隐向量;
所述依据所述至少一个目标类别以及各个预测模型分别与不同类别的适合程度关系,分别确定多个预测模型用于预测所述点击概率的适合程度,包括:
依据所述隐向量以及预先训练出的各个预测模型各自对应的类别向量,分别确定多个预测模型适合预测所述点击概率的适合程度。
4.根据权利要求3所述的预测点击率的方法,其特征在于,依据所述隐向量以及预先训练出的各个预测模型各自对应的类别向量,分别确定多个预测模型适合预测所述点击概率的适合程度,包括:
分别计算所述隐向量与预先训练出的各个预测模型各自的类别向量之间的向量距离;
基于各个预测模型对应的向量距离,分别确定多个预测模型各自适合预测所述点击概率的适合程度。
5.根据权利要求1至4任一项所述的预测点击率的方法,其特征在于,所述预测模型适合预测所述点击概率的适合程度为所述预测模型适合预测点击概率的权重,所述权重的大小表征不同的适合程度;
所述依据所述多个预测模型各自预测出的预测点击率以及所述多个预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率,包括:
依据所述多个预测模型各自对应的权重,对多个预测模型预测出的预测点击率进行加权求和,将加权求和所得的结果确定为所述目标用户对所述目标对象的点击概率。
6.根据权利要求1至4任一项所述的预测点击率的方法,其特征在于,所述利用所述多个预测模型分别预测所述输入特征对应的预测点击率,包括:
依据各个预测模型对应的适合程度,从所述多个预测模型中选取出适合预测所述点击概率的至少一个目标预测模型;
利用所述至少一个目标预测模型分别预测所述输入特征对应的预测点击率;
所述依据所述多个预测模型各自预测出的预测点击率以及所述多个预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率,包括:
依据所述至少一个目标预测模型预测出的预测点击率以及所述至少一个目标预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率。
7.根据权利要求3所述的预测点击率的方法,其特征在于,所述多个预测模型、编码器以及所述预测模型对应的类别向量为利用预先已标注点击率的多个输入特征样本训练得到的。
8.一种预测点击率的装置,其特征在于,包括:
特征获取单元,用于获取用于预测目标用户对目标对象的点击概率的输入特征;
适合度确定单元,用于依据所述输入特征,分别确定多个预测模型用于预测所述点击概率的适合程度;
点击率预估单元,用于利用所述多个预测模型分别预测所述输入特征对应的预测点击率;
点击概率确定单元,用于依据所述多个预测模型各自预测出的预测点击率以及所述多个预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率。
9.根据权利要求8所述的预测点击率的装置,其特征在于,所述适合度确定单元,包括:
类别确定子单元,用于依据特征与类别的函数关系,确定所述输入特征所归属的至少一个目标类别;
适合度确定子单元,用于依据所述至少一个目标类别以及各个预测模型分别与不同类别的适合程度关系,分别确定多个预测模型用于预测所述点击概率的适合程度。
10.根据权利要求9所述的预测点击率的装置,其特征在于,所述类别确定子单元,包括:
向量转换子单元,用于利用预先训练的编码器将所述输入特征转换为表征所述输入特征所属的类别信息的隐向量;
所述适合度确定子单元,具体为用于依据所述隐向量以及预先训练出的各个预测模型各自对应的类别向量,分别确定多个预测模型适合预测所述点击概率的适合程度。
11.根据权利要求10所述的预测点击率的装置,其特征在于,所述适合度确定子单元,包括:
距离计算子单元,用于分别计算所述隐向量与预先训练出的各个预测模型各自的类别向量之间的向量距离;
距离分析子单元,用于基于各个预测模型对应的向量距离,分别确定多个预测模型各自适合预测所述点击概率的适合程度。
12.根据权利要求8至11任一项所述的预测点击率的装置,其特征在于,所述预测模型适合预测所述点击概率的适合程度为所述预测模型适合预测点击概率的权重,所述权重的大小表征不同的适合程度;
所述点击概率确定单元,包括:
点击率加权单元,用于依据所述多个预测模型各自对应的权重,对多个预测模型预测出的预测点击率进行加权求和,将加权求和所得的结果确定为所述目标用户对所述目标对象的点击概率。
13.一种计算机设备,其特征在于,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取用于预测目标用户对目标对象的点击概率的输入特征;
依据所述输入特征,分别确定多个预测模型用于预测所述点击概率的适合程度;
利用所述多个预测模型分别预测所述输入特征对应的预测点击率;
依据所述多个预测模型各自预测出的预测点击率以及所述多个预测模型各自对应的适合程度,确定所述目标用户对所述目标对象的点击概率。
14.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至7任一项所述的预测点击率的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810837246.2A CN109145245A (zh) | 2018-07-26 | 2018-07-26 | 预测点击率的方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810837246.2A CN109145245A (zh) | 2018-07-26 | 2018-07-26 | 预测点击率的方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109145245A true CN109145245A (zh) | 2019-01-04 |
Family
ID=64797957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810837246.2A Pending CN109145245A (zh) | 2018-07-26 | 2018-07-26 | 预测点击率的方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145245A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800890A (zh) * | 2019-01-31 | 2019-05-24 | 网宿科技股份有限公司 | 一种模型预测方法及装置 |
CN109919670A (zh) * | 2019-02-27 | 2019-06-21 | 重庆金窝窝网络科技有限公司 | 广告点击概率的预测方法、装置、服务器和存储介质 |
CN110298508A (zh) * | 2019-06-28 | 2019-10-01 | 京东数字科技控股有限公司 | 行为预测方法、装置及设备 |
CN110390052A (zh) * | 2019-07-25 | 2019-10-29 | 腾讯科技(深圳)有限公司 | 搜索推荐方法、ctr预估模型的训练方法、装置及设备 |
CN110502715A (zh) * | 2019-08-28 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 点击概率的预测方法及装置 |
CN110609948A (zh) * | 2019-04-03 | 2019-12-24 | 华南理工大学 | 一种基于多层次注意力机制和场感知分解机的推荐方法 |
CN110851713A (zh) * | 2019-11-06 | 2020-02-28 | 腾讯科技(北京)有限公司 | 信息处理方法、推荐方法及相关设备 |
CN110929206A (zh) * | 2019-11-20 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 点击率预估方法、装置、计算机可读存储介质和设备 |
CN111340561A (zh) * | 2020-03-04 | 2020-06-26 | 深圳前海微众银行股份有限公司 | 信息点击率的计算方法、装置、设备及可读存储介质 |
CN111400592A (zh) * | 2020-03-12 | 2020-07-10 | 山东师范大学 | 基于眼动技术和深度学习的个性化课程推荐方法及系统 |
CN111475392A (zh) * | 2020-04-08 | 2020-07-31 | 北京字节跳动网络技术有限公司 | 生成预测信息的方法、装置、电子设备和计算机可读介质 |
CN112055038A (zh) * | 2019-06-06 | 2020-12-08 | 阿里巴巴集团控股有限公司 | 生成点击率预估模型的方法及预测点击概率的方法 |
CN112287278A (zh) * | 2019-11-07 | 2021-01-29 | 北京京东尚科信息技术有限公司 | 一种用户留存率的确定方法、电子设备及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015180622A1 (zh) * | 2014-05-26 | 2015-12-03 | 北京奇虎科技有限公司 | 一种确定搜索查询词类别属性的方法和装置 |
CN107742221A (zh) * | 2016-08-23 | 2018-02-27 | 腾讯科技(深圳)有限公司 | 一种推广信息的处理方法、装置和系统 |
CN108109008A (zh) * | 2017-12-21 | 2018-06-01 | 暴风集团股份有限公司 | 用于预估广告的点击率的方法、装置、设备和存储介质 |
-
2018
- 2018-07-26 CN CN201810837246.2A patent/CN109145245A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015180622A1 (zh) * | 2014-05-26 | 2015-12-03 | 北京奇虎科技有限公司 | 一种确定搜索查询词类别属性的方法和装置 |
CN107742221A (zh) * | 2016-08-23 | 2018-02-27 | 腾讯科技(深圳)有限公司 | 一种推广信息的处理方法、装置和系统 |
CN108109008A (zh) * | 2017-12-21 | 2018-06-01 | 暴风集团股份有限公司 | 用于预估广告的点击率的方法、装置、设备和存储介质 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800890A (zh) * | 2019-01-31 | 2019-05-24 | 网宿科技股份有限公司 | 一种模型预测方法及装置 |
CN109919670A (zh) * | 2019-02-27 | 2019-06-21 | 重庆金窝窝网络科技有限公司 | 广告点击概率的预测方法、装置、服务器和存储介质 |
CN110609948A (zh) * | 2019-04-03 | 2019-12-24 | 华南理工大学 | 一种基于多层次注意力机制和场感知分解机的推荐方法 |
CN112055038B (zh) * | 2019-06-06 | 2022-04-15 | 阿里巴巴集团控股有限公司 | 生成点击率预估模型的方法及预测点击概率的方法 |
CN112055038A (zh) * | 2019-06-06 | 2020-12-08 | 阿里巴巴集团控股有限公司 | 生成点击率预估模型的方法及预测点击概率的方法 |
CN110298508A (zh) * | 2019-06-28 | 2019-10-01 | 京东数字科技控股有限公司 | 行为预测方法、装置及设备 |
CN110390052A (zh) * | 2019-07-25 | 2019-10-29 | 腾讯科技(深圳)有限公司 | 搜索推荐方法、ctr预估模型的训练方法、装置及设备 |
CN110390052B (zh) * | 2019-07-25 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 搜索推荐方法、ctr预估模型的训练方法、装置及设备 |
CN110502715A (zh) * | 2019-08-28 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 点击概率的预测方法及装置 |
CN110502715B (zh) * | 2019-08-28 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 点击概率的预测方法及装置 |
CN110851713A (zh) * | 2019-11-06 | 2020-02-28 | 腾讯科技(北京)有限公司 | 信息处理方法、推荐方法及相关设备 |
CN110851713B (zh) * | 2019-11-06 | 2023-05-30 | 腾讯科技(北京)有限公司 | 信息处理方法、推荐方法及相关设备 |
CN112287278A (zh) * | 2019-11-07 | 2021-01-29 | 北京京东尚科信息技术有限公司 | 一种用户留存率的确定方法、电子设备及计算机存储介质 |
CN110929206B (zh) * | 2019-11-20 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 点击率预估方法、装置、计算机可读存储介质和设备 |
CN110929206A (zh) * | 2019-11-20 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 点击率预估方法、装置、计算机可读存储介质和设备 |
CN111340561A (zh) * | 2020-03-04 | 2020-06-26 | 深圳前海微众银行股份有限公司 | 信息点击率的计算方法、装置、设备及可读存储介质 |
CN111400592A (zh) * | 2020-03-12 | 2020-07-10 | 山东师范大学 | 基于眼动技术和深度学习的个性化课程推荐方法及系统 |
CN111400592B (zh) * | 2020-03-12 | 2023-06-20 | 山东师范大学 | 基于眼动技术和深度学习的个性化课程推荐方法及系统 |
CN111475392A (zh) * | 2020-04-08 | 2020-07-31 | 北京字节跳动网络技术有限公司 | 生成预测信息的方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145245A (zh) | 预测点击率的方法、装置、计算机设备及存储介质 | |
CN111898031B (zh) | 一种获得用户画像的方法及装置 | |
CN107220386A (zh) | 信息推送方法和装置 | |
CN110162693A (zh) | 一种信息推荐的方法以及服务器 | |
CN111949887B (zh) | 物品推荐方法、装置及计算机可读存储介质 | |
CN109584006B (zh) | 一种基于深度匹配模型的跨平台商品匹配方法 | |
CN109447698A (zh) | 一种基于神经网络的推荐算法 | |
CN113569129A (zh) | 点击率预测模型处理方法、内容推荐方法、装置及设备 | |
CN112288554B (zh) | 商品推荐方法和装置、存储介质及电子装置 | |
CN111309887A (zh) | 一种训练文本关键内容提取模型的方法和系统 | |
CN114201516B (zh) | 一种用户画像构建的方法、信息推荐的方法以及相关装置 | |
WO2023284516A1 (zh) | 基于知识图谱的信息推荐方法、装置、设备、介质及产品 | |
CN114610865A (zh) | 召回文本推荐方法、装置、设备及存储介质 | |
CN116205700A (zh) | 目标产品的推荐方法、装置、计算机设备和存储介质 | |
CN116340643B (zh) | 对象推荐的调整方法及装置、存储介质、电子设备 | |
CN116955788A (zh) | 一种内容处理的方法、装置、设备、存储介质及程序产品 | |
CN107944589A (zh) | 广告点击率的预测方法和预测装置 | |
CN116361643A (zh) | 实现对象推荐的模型训练方法及对象推荐方法及相关装置 | |
CN111782774A (zh) | 一种问题推荐的方法及装置 | |
Du et al. | Research on Personalized Book Recommendation Based on Improved Similarity Calculation and Data Filling Collaborative Filtering Algorithm | |
KR20220116719A (ko) | 모바일 메신저에 게시된 상품판매정보를 수집하여 제공하기 위한 장치 및 이를 위한 방법 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 | |
JP2021105838A (ja) | 予測システム、予測方法、及びプログラム | |
CN117786234B (zh) | 一种基于两阶段对比学习的多模态资源推荐方法 | |
CN111444338A (zh) | 文本处理、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190121 Address after: Room 1601-1608, Floor 16, Yinke Building, 38 Haidian Street, Haidian District, Beijing Applicant after: Tencent Technology (Beijing) Co., Ltd Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors Applicant before: Tencent Technology (Shenzhen) Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |