CN105913286B

CN105913286B - 一种自动融合多种个性化推荐模型的方法

Info

Publication number: CN105913286B
Application number: CN201610325683.7A
Authority: CN
Inventors: 纪达麒
Original assignee: Daerguan Information Technology (shanghai) Co Ltd
Current assignee: Daguan Data Co ltd
Priority date: 2016-05-16
Filing date: 2016-05-16
Publication date: 2020-02-11
Anticipated expiration: 2036-05-16
Also published as: CN105913286A

Abstract

本发明涉及自动融合多种个性化推荐模型的方法，属于计算机技术领域。本发明包括如下步骤：第一步：通过离线数据统计出推荐位展现位置的平均点击率和各算法的平均点击率。第二步：启动的时候加载平均点击率和各算法平均点击率，以及生成用户算法偏好信息字典。第三步：用户访问推荐服务，RecServer触发推荐请求；第四步：RecServer通过UserEmsembleServer获取各个算法的权重β_k，请求参数为用户id；第五步：UserEmsembleServer收到请求后，通过用户算法偏好信息字典查看该用户的算法偏好信息是否存在。第六步：RecServer使用返回的结果，结合各个算法的得分。本发明实时为每个用户建立算法偏好模型，相当于每个用户自己主动选择喜欢的算法，这样可以很大程度的发挥各个算法的长处，提升推荐效果。

Description

一种自动融合多种个性化推荐模型的方法

技术领域

本发明涉及自动融合多种个性化推荐模型的方法，属于计算机技术领域。

背景技术

在这个信息爆炸的时代，消费者面临众多选择、未知的领域、过载的信息时，往往无所适从；然而与此同时，内容的生产者(例如商家)也在苦苦寻觅合适的用户，寻找最便捷的渠道，而解决这两类矛盾的最好工具就是推荐系统。推荐系统有很多种算法，如基于内容的推荐算法、基于物品的协同过滤算法、基于用户的协同过滤算法、矩阵分解算法等，不同的算法都有各自的优缺点，只有将不同算法进行有效融合，才能最大的提升效果。

传统的多算法融合往往采用线性方法或者优先级融合算法。线性方法把不同算法赋予不同的权重，然后线性加权，如下公式所示。假设有n种算法，Score(u,i)是给用户(user)推荐商品(item)的得分，β_k是算法K的权重，rec_k(u,i)是算法K得到的用户(user)对商品item的推荐得分。

优先级融合算法主要是先界定不同的算法的好坏，优先使用好算法的推荐结果，得不到结果时再使用次好的，依次类推。

这些方法的问题在于，对于所有用户，每种算法对不同用户的影响是一样的。但不同算法往往适用于不同的用户，如基于物品的协同过滤更适用于推荐给用户1，基于用户的协同过滤算法更适用于推荐给用户2。

发明内容

为了克服上述的不足，本发明提供一种自动融合多种个性化推荐模型的方法，本方法能够为用户展现和点击数据实时反馈到系统中，系统为每个用户建立一个算法权重模型；新用户可以通过离线统计算法，提前生成一份算法权重，实时模型在这份算法权重上进行调整。权重调整的时候，对展现和点击调权方式不一样，并且考虑了位置因素以及算法的得分贡献因素。

本发明采取的技术方案如下：

自动融合多种个性化推荐模型的方法,包括如下步骤：

第一步：通过离线数据统计出推荐位展现位置的平均点击率和各算法的平均点击率，所述展现位置是每次推荐一般都会有多个结果，排列顺序可以依次进行编号(1,2,3……)，展现位置i的平均点击率Ctr_i计算方法为该位置的总点击除以总曝光,

各算法的平均点击率β_k计算方法为每个算法产生的点击除以算法的曝光次数，

第二步：启动的时候加载平均点击率和各算法平均点击率，以及生成用户算法偏好信息字典，该字典结构是用户id为key，value是该用户各个算法的权重列表，并且初始化展现信息字典item_show_dict,该字典用来接收点击请求时可以找出对应的展现算法信息，即这次推荐点击是来自哪次的推荐展现；

第三步：用户访问推荐服务，RecServer触发推荐请求(RecPV)；

第四步：RecServer通过UserEmsembleServer获取各个算法的权重β_k，请求参数为用户id(userid)(GetWeight)；

第五步：UserEmsembleServer收到请求后，通过用户算法偏好信息字典(user_alg_dict)查看该用户的算法偏好信息(UserAlgList)是否存在，存在则返回该信息，不存在则将启动时加载的算法平均点击率作为UserAlgList，一方面更新用户算法偏好信息字典，一方面作为结果返回；

第六步：RecServer使用返回的结果，结合各个算法的得分，计算出每个待推荐item的得分，计算方式为

并且根据最终得分从高到低排列，得到推荐的列表；

第七步：RecServer把推荐列表信息实时发送给UserEmsembleServer，推荐展现的信息包括推荐id(pvid)、用户id(userid)、展现的物品id(itemid)、展现的位置id(posid)、算法信息列表(alg_info_list),该列表每项包括算法id(algid)、算法得分(Score_k)；

第八步：UserEmsembleServer对每个展现的物品(item)逐一更新用户算法偏好信息字典(user_alg_dict)，更新方式为先找到该用户id(userid)对应的UserAlgList，对该List中的每个算法(alg)，更新其权重，更新方式为

β_k′是更新后的权重，Ctr_i是展现位置i的平均点击率，Score_k是算法K对该item的得分；Score_item是该item的总得分，λ是位置点击率的衰减常数、ξ是算法点击率的衰减常数，可以根据具体的业务场景设置不同的值；

第九步：如果用户点击了推荐结果，该信息会发送给clickserver；

第十步：clickserver把点击信息发送给UserEmsembleServer，点击信息包括用户id(userid)，商品id(itemid)，推荐ID(pvid)；

第十一步：UserEmsembleServer收到点击信息后，首先通过pvid和itemid，在展现信息字典item_show_dict中可以找到推荐该item的算法列表，同时通过用户算法偏好信息字典找到该用户的算法信息，然后逐一更新各个算法偏好信息，更新方式为

β_k′是更新后的权重，Score_k是算法K对该item的得分，Score_item是该item的总得分,

是点击衰减常数。

第十一步中假设用户点击了item2,

取值为1.0，weight1＝0.380*(1+1.0*0.2/1.1)＝0.449；weight2＝0.282*(1+1.0*0.9/1.1)＝0.512。

第二步的推荐展现数据结构如下：

vector<float>PosCtr//平均点击率列表，存储为数组

struct

{

int algid；//算法id

float weight；//算法权重

}UserAlg//单个算法以及对应权重

vector<UserAlg>UserAlgList//数组结构，表示一个用户的所有算法以及对应的权重

map<userid,UserAlgList>user_alg_dict//用户算法偏好信息字典

vector<int>AlgList//算法id列表

map<pvid_itemid,AlgList>item_show_dict//以pvid+itemid为key，value是展现该item对应的算法列表

本发明的有益效果：不同的推荐算法，往往适用于不同的用户，本发明通过用户的点击反馈行为，实时为每个用户建立算法偏好模型，相当于每个用户自己主动选择喜欢的算法，这样可以很大程度的发挥各个算法的长处，提升推荐效果。

附图说明

图1示例性地示出了本发明流程示意图。

具体实施方式

下面结合附图对本发明做进一步说明，

如图1所示，本发明包括如下步骤：

第一步：通过离线数据统计出推荐位展现位置的平均点击率和各算法的平均点击率，所述展现位置是每次推荐一般都会有多个结果，排列顺序可以依次进行编号(1,2,3……)，展现位置i的平均点击率Ctr_i计算方法为该位置的总点击除以总曝光,各算法的平均点击率β_k计算方法为每个算法产生的点击除以算法的曝光次数，

第二步：启动的时候加载平均点击率和各算法平均点击率，以及生成用户算法偏好信息字典，该字典结构是用户id为key，value是该用户各个算法的权重列表，并且初始化展现信息字典item_show_dict,该字典用来接收点击请求时可以找出对应的展现算法信息，即这次推荐点击是来自哪次的推荐展现；数据结构如下：

vector<float>PosCtr//平均点击率列表，存储为数组

struct

{

int algid；//算法id

float weight；//算法权重

}UserAlg//单个算法以及对应权重

map<userid,UserAlgList>user_alg_dict//用户算法偏好信息字典

vector<int>AlgList//算法id列表

第三步：用户访问推荐服务，RecServer触发推荐请求(RecPV)；

并且根据最终得分从高到低排列，得到推荐的列表；

β_k′是更新后的权重，Ctr_i是展现位置i的平均点击率，Score_k是算法K对该item的得分；Score_item是该item的总得分，λ是位置点击率的衰减常数、ξ是算法点击率的衰减常数，可以根据具体的业务场景设置不同的值；假设有2种算法，推荐列表依次为item1和item2，位置1的平均点击率为0.2，位置2的平均点击率为0.1。假设算法1和算法2的权重分别为0.4和0.3，常量λ设为0.01，ξ设为0.05；

先处理item1，

weight1＝0.4*(1-0.01*0.2)*(1-0.05*0.9/1.2)＝0.384，

weight2＝0.3*(1-0.01*0.2)*(1-0.05*0.3/1.1)＝0.295；

再处理item2，

weight1＝0.384*(1-0.01*0.1)*(1-0.05*0.2/1.1)＝0.380，

weight2＝0.295*(1-0.01*0.1)*(1-0.05*0.9/1.1)＝0.282；

是点击衰减常数。

上面的例子中，假设用户点击了item2,

取值为1.0，

weight1＝0.380*(1+1.0*0.2/1.1)＝0.449，

weight2＝0.282*(1+1.0*0.9/1.1)＝0.512，

所以对于该用户，算法1和算法2的初始权重为0.4和0.3，通过展现和点击行为后，权重更新为0.449和0.512，算法1的权重提升了(0.449-0.4)/0.4＝12％。算法2的权重提升了(0.512-0.3)/0.3＝70％。对于该用户算法2的权重更大。

对于本领域的普通技术人员而言，上述实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.自动融合多种个性化推荐模型的方法，其特征在于：包括如下步骤：

第一步：通过离线数据统计出推荐展现位置的平均点击率和各算法的平均点击率，展现位置i的平均点击率Ctr_i计算方法为该位置的总点击数Click_i除以总曝光数PV_i,

算法k的平均点击率β_k计算方法为该算法产生的点击数Click_k除以该算法的曝光次数PV_k，

第二步：启动的时候加载各展现位置平均点击率和各算法平均点击率，以及生成用户算法偏好信息字典，该字典结构的key是用户标识userid，value是该用户标识各个算法的权重列表，并且初始化展现信息字典item_show_dict,该字典用于接收点击请求时找出对应的展现算法信息，即这次推荐点击是来自哪次的推荐展现；

第三步：用户访问推荐服务，RecServer触发推荐请求；

第四步：RecServer通过UserEmsembleServer获取各个算法的权重

请求参数为用户标识userid；

第五步：UserEmsembleServer收到请求后，通过用户算法偏好信息字典查看该用户的算法偏好信息UserAlgList是否存在，存在则返回该信息，不存在则将启动时加载的算法平均点击率作为算法偏好信息UserAlgList，一方面更新用户算法偏好信息字典，一方面作为结果返回；

其中，rec_k(u,i)是用户u的算法k对物品i的得分，并且根据最终得分从高到低排列，得到推荐的列表；

第七步：RecServer把推荐列表信息实时发送给UserEmsembleServer，推荐展现的信息包括推荐标识pvid、用户标识userid、展现的物品标识itemid、展现的位置标识posid、算法信息列表，算法信息列表每项包括算法标识algid、算法得分；

第八步：UserEmsembleServer对每个展现的物品逐一更新用户算法偏好信息字典，更新方式为先找到该用户标识userid对应的UserAlgList，对其中的每个算法，更新其权重，更新方式为

是更新后的权重，Ctr_i是展现位置i的平均点击率，Score_k是算法k对该item的得分；Score_item是该item的总得分，λ是位置点击率的衰减常数、ξ是算法点击率的衰减常数，根据具体的业务场景设置不同的值；

第十步：clickserver把点击信息发送给UserEmsembleServer，点击信息包括用户标识userid，物品标识itemid，推荐标识pvid；

第十一步：UserEmsembleServer收到点击信息后，首先通过推荐标识pvid和展现的物品标识itemid，在展现信息字典item_show_dict中找到推荐该item的算法列表，同时通过用户算法偏好信息字典找到该用户的算法信息，然后逐一更新各个算法偏好信息，更新方式为

是更新后的权重，Score_k是算法k对该item的得分，Score_item是该item的总得分,ξ是算法点击率的衰减常数。