CN105574216A

CN105574216A - 基于概率模型和用户行为分析的个性化推荐方法、系统

Info

Publication number: CN105574216A
Application number: CN201610127077.4A
Authority: CN
Inventors: 于敬; 陈运文; 桂洪冠; 纪传俊; 张健
Original assignee: Information Technology (shanghai) Co Ltd
Current assignee: Information Technology (shanghai) Co Ltd
Priority date: 2016-03-07
Filing date: 2016-03-07
Publication date: 2016-05-11

Abstract

本发明公开了基于概率模型和用户行为分析的个性化推荐方法及系统，方法包括：提取得到物品以及物品属性信息，且提取得到用户对物品的操作行为；通过所述物品属性信息和用户对物品的操作行为，得到兴趣点；通过用户对物品的操作行为，获取用户兴趣相似度，并得到相似用户；根据用户对物品基于时间维度的操作行为，得到衰减因子，建立用户模型；根据用户模型，得到用户在各个维度的兴趣特征信息；过滤后并采用推荐算法生成待推荐结果，进行算法融合，得到用户个性化推荐的结果。本发明通过将原始数据进行预处理后，构建用户模型，准确刻画用户的兴趣点和本质的信息获取需求，以提供精准的个性化推荐，从而解决互联网中的信息过载和长尾物品的问题。

Description

基于概率模型和用户行为分析的个性化推荐方法、系统

技术领域

本发明涉及计算机数据处理技术领域，特别涉及基于概率模型和用户行为分析的个性化推荐方法、系统。

背景技术

随着互联网信息技术的发展，尤其是电子商务的兴起，互联网内容呈现爆炸式的增长，人们逐渐进入海量数据时代。每天面对琳琅满目并且种类繁杂的商品、电影、歌曲、视频等各种服务时，却无所适从，这就是经常提到的信息过载(informationoverload)问题。同时，互联网上的各种物品又存在长尾(longtail)现象，指大部分商品属于冷门而没有展示的机会。ChrisAnderson在2006年出版的《长尾理论》一书中指出，传统的80/20原则(80％的销售额来自于20％的热门品牌)在互联网时代下回面临更多挑战。主流的商品基本上代表的是大部分用户的需求，但是长尾的商品代表的则是一小部分个性化需求。应对信息过载和长尾物品的问题，推荐系统大显身手。能够根据用户的历史行为数据，对用户进行兴趣建模，推荐用户感兴趣的物品(如商品、电影、新闻)，这就是个性化推荐系统。

目前，个性化推荐系统能够在用户没有明确目的时候，帮助发现那些他们感兴趣但很难发现的物品。但是也存在诸多难点。

1、用户兴趣的量化。正所谓：一千个人中有一千个汉姆雷特。个人的兴趣千差万别，如何给出一种能准确量化用户兴趣的指标，用以表征用户的偏好。比如如何判断用户喜欢娱乐八卦的文章还是喜欢时事政治，如何量化对各个类别、标签的偏好程度。

2、用户行为模式挖掘。用户历史行为数据代表了用户的明确需求，每一次的鼠标点击都是用户本质需求的反应。基于用户的注册、登录、浏览、点击、购买、收藏、打分、评论等各种维度的数据中，如何提取有价值的用户属性。

3、个性化的精准性。如何保证个性化的推荐结果是真正符合用户需求，一直也都是业界都在绞尽脑汁解决的问题。

发明内容

本发明要解决的技术问题是，通过将原始数据进行预处理后，构建用户模型，用以准确刻画用户的兴趣点和本质的信息获取需求，以提供精准的个性化推荐，从而解决互联网中的信息过载和长尾物品的问题。

解决上述技术问题，本发明提供了基于概率模型和用户行为分析的个性化推荐方法，包括如下步骤：

提取得到物品以及物品属性信息，且提取得到用户对物品的操作行为；所述物品是在不同场景下，待推荐主体；所述操作行为是用户在不同场景下，所包含的操作类型；

通过所述物品属性信息和用户对物品的操作行为，得到兴趣点；通过用户对物品的操作行为，获取用户兴趣相似度，并得到相似用户；根据用户对物品基于时间维度的操作行为，得到衰减因子；根据所述兴趣点、相似用户、衰减因子建立用户模型；

根据用户模型，得到用户在各个维度的兴趣特征信息；

对所述兴趣特征信息进行过滤，并采用推荐算法生成待推荐结果；

根据所述待推荐结果进行算法融合，得到用户个性化推荐的结果。

更进一步，所述物品以及物品属性信息为：

<itemid，publisher，categroyid，tagid>

其中itemid表示唯一标识一个物品，publisher表示物品的发布者，categoryid表示物品所属的类别id，tagid表示物品的标签id。

更进一步，所述用户对物品的操作行为为：

<userid，itemid，timestamp，action_type>

其中userid表示唯一标识一个用户，itemid表示唯一标识一个物品，timestamp表示本次操作的时间，action_type表示本次操作的类型；所述用户对物品的操作行为包括，用户的历史行为数据。

更进一步，通过所述物品属性信息和用户对物品的操作行为，得到兴趣点的方法为：

4-1)遍历用户所有点击过的itemid，获取itemid对应的categoryid，统计每一个用户点击行为下的每个类别的点击次数，这样就得到了每个用户点击过的类别次数分布；

4-2)计算点击过的各个物品的类别概率分布即为：

P (c a t e g o r y i d | c l i c k) = \frac{C o u n t (c a t e g o r y i d | c l i c k)}{Σ c o u n t (c a t e g o r y i d | c l i c k)}

其中，P(categoryidclick)表示在点击行为下的类别categoryid的概率，表示对不同操作类型下的属性权重；Count(categoryid|click)表示在点击行为下的类别categoryid的点击次数；Count(categoryid|click)表示在点击行为下的各个类别的点击次数之和；

4-3)类别最终的概率如下：

P(categoryid)＝P(categoryid|behavior₁)*Weight(behavior₁)

+P(categoryid|behavior₂)*Weight(behavior₂)

+...

+P(categoryid|behavior_n)*Weight(behavior_n)

其中，P(categoryid)表示在各种行为下的类别categoryid的最终权重；P(categoryid|behavior_n)表示在行为类型behavior下的类别categoryid的概率；Weight(behavior_n)表示行为类型的权重，n为自然数；

4-4)根据在各种行为下的类别categoryid的最终权重，得到用户在各个维度上的偏好数据即兴趣点。

更进一步，对不同操作类型下的属性权重P进行置信度计算：

r a n k (i) = \frac{\hat{p} + \frac{1}{2 n} z_{1 - \frac{α}{2}}^{2} - z_{1 - \frac{α}{2}} \sqrt{\frac{\hat{p} (1 - \hat{p})}{n} + \frac{z_{1 - \frac{α}{2}}^{2}}{4 n^{2}}}}{1 + \frac{1}{n} z_{1 - \frac{α}{2}}^{2}}

其中，α代表概率论中Z统计量的显著性水平，表示的是属性分布概率，n表示样本大小，表示对应某个置信水平的z统计量，为常数；表示的平方，为常数。

α代表概率论中Z统计量的显著性水平，是指拒绝了事实上正确的原假设的概率，根据实际的业务需求进行取值，为常数。

更进一步，通过用户对物品的操作行为，获取用户兴趣相似度，并得到用户u与用户v的相似度计算方法具体为：

所述用户兴趣相似度这样就可以得到每个用户与其他用户的相似度，按照相似度从大到小排列，取最高的一些用户，即为当前用户的相似用户列表。其中，N(u)表示用户u有过行为的物品列表，i表示用户u和用户v都有过行为的物品，|N(i)|表示对物品i有过行为的总用户数量，|N(u)|表示用户u有过行为的物品数量，N(v)表示用户v有过行为的物品列表，|N(v)|表示用户v有过行为的物品数量。

更进一步，对所述相似用户进行归一化处理：

n o r m_w e i g h t (i) = \frac{s i m i (i) - \min (s i m)}{m a x (s i m) - \min (s i m)}

其中，simi(i)表示两个用户的相似度，min(sim)表示所有相似用户中最小的相似度，max(sim)表示所有相似用户中最大的相似度，min(sim)表示所有相似用户中最小的相似度。

更进一步，根据用户对物品基于时间维度的操作行为，得到：

其中，time_diff表示某一次操作距离当前时间的时间间隔，max_time_diff表示待分析数据距离当前时间最大的时间间隔，x是个调节系数。

更进一步，对所述兴趣特征信息进行过滤的方法包括：

基于用户的协同过滤：

找到与第一用户兴趣相似的第二用户，并把第二用户喜欢的并且第一用户不知道的item物品推荐给第一用户；

其中第一用户与第二用户的相似度为simi，第二用户对item的喜欢程度为bias，item本身的质量得分表示为score；

则把item推荐给第一用户的权重计算方式为：

weight＝simi*bias*score

基于物品的协同过滤：

预先计算好各个物品的相似物品列表，根据用户偏好的第一物品itemA，把与所述itemA相似的第二物品itemB推荐给用户；

第一物品与第二物品的相似度记为simi,用户对第一物品偏好程度表示为bias，第二物品itemB本身的质量得分记为score，则将第二物品itemB推荐给用户的权重计算方式为：

weight＝simi*bias*score

基于内容的推荐：

根据用户偏好的类别、标签、品牌等与物品相关的信息查找符合条件的物品推荐给用户；其中，对类别、标签、品牌等的偏好程度记为bias,物品本身的质量得分为score，则把物品推荐给用户的权重计算方式为：

weight＝bias*score

对上述权重排序后，去除权重最高的物品，得到推荐结果。

基于上述的方法，本发明还提供了基于概率模型和用户行为分析的个性化推荐系统，包括：

提取模块，所述提取模块用以提取得到物品以及物品属性信息，且提取得到用户对物品的操作行为；所述物品是在不同场景下，待推荐主体；所述操作行为是用户在不同场景下，所包含的操作类型；

预处理模块，所述预处理模块用以对所述提取模块中的物品属性信息、用户对物品的操作行为进行预处理；

用户模型建立模块，所述用户模型建立模块用以通过所述物品属性信息和用户对物品的操作行为，得到兴趣点；通过用户对物品的操作行为，获取用户兴趣相似度，并得到相似用户；根据用户对物品基于时间维度的操作行为，得到衰减因子；根据所述兴趣点、相似用户、衰减因子建立用户模型；

个性化推荐模块，所述个性化推荐模块用以根据用户模型，得到用户在各个维度的兴趣特征信息；对所述兴趣特征信息进行过滤，并采用推荐算法生成待推荐结果；根据所述待推荐结果进行算法融合，得到用户个性化推荐的结果。

本发明的有益效果：

1)本发明基于概率模型和用户行为分析的个性化推荐方法的完整流程：包括数据预处理、用户兴趣点的界定和量化、相似用户的计算、精细的用户群体划分、多种推荐算法及融合等，准能够确刻画用户的兴趣点和本质的信息获取需求，以提供精准的个性化推荐，解决互联网中的信息过载和长尾物品的问题。

2)本发明基于概率模型和用户行为分析的个性化推荐方法中基于概率量化用户的兴趣点，并使用置信区间的思想增加概率的可信度，对预测用户的将来行为提供强有力的数学基础。

3)本发明基于概率模型和用户行为分析的个性化推荐方法中相似用户的计算，并没有使用简单的余弦相似度。而是考虑到物品的热门程度，对热门物品主动降权，以更好刻画用户间的相似性。

4)本发明基于概率模型和用户行为分析的个性化推荐方法中还包括，细致划分用户群体属性。综合各种用户行为数据，分析挖掘能有效表征用户主观诉求的群体属性，有效解决用户信息获取时的无所适从。

5)本发明基于概率模型和用户行为分析的个性化推荐方法涉及多种推荐算法进行推荐，相互补充和调整算法结果，准确满足用户的个性化推荐需求，深度解决用户面临信息过载的痛点，同时又解决了长尾物品的问题。

附图说明

图1是本发明一实施例中的基于概率模型和用户行为分析的个性化推荐方法的流程示意图。

图2是图1中的物品以及物品属性信息的结构示意图。

图3是图1中的用户对物品的操作行为结构示意图。

图4是本发明一实施例中的基于概率模型和用户行为分析的个性化推荐系统结构示意图。

图5是本发明一实施例中的基于概率模型和用户行为分析的推荐系统的具体结构关系示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1所示，是本发明一实施例中的基于概率模型和用户行为分析的个性化推荐方法的流程示意图。

在本实施例中的基于概率模型和用户行为分析的个性化推荐方法，包括如下步骤：

步骤S101提取得到物品以及物品属性信息，且提取得到用户对物品的操作行为；所述物品是在不同场景下，待推荐主体；所述操作行为是用户在不同场景下，所包含的操作类型；

步骤S102通过所述物品属性信息和用户对物品的操作行为，得到兴趣点；如图2所示，是图1中的物品以及物品属性信息的结构示意图，所述物品以及物品属性信息为：

<itemid，publisher，categroyid，tagid>

其中itemid201一标识一个物品，publisher202品的发布者，categoryid203品所属的类别id，tagid204品的标签id。如3是图1中的用户对物品的操作行为结构示意图，所述用户对物品的操作行为为：

<userid，itemid，timestamp，action_type>

其中userid301表示唯一标识一个用户，itemid302表示唯一标识一个物品，Timestamp303表示本次操作的时间，action_type304表示本次操作的类型；所述用户对物品的操作行为包括，用户的历史行为数据。

步骤S103通过用户对物品的操作行为，获取用户兴趣相似度，并得到相似用户；

步骤S104根据用户对物品基于时间维度的操作行为，得到衰减因子；

步骤S105根据所述兴趣点、相似用户、衰减因子建立用户模型；

步骤S106根据用户模型，得到用户在各个维度的兴趣特征信息；

步骤S107对所述兴趣特征信息进行过滤，并采用推荐算法生成待推荐结果；

步骤S108根据所述待推荐结果进行算法融合，得到用户个性化推荐的结果。

在本实施例中的基于概率模型和用户行为分析的个性化推荐系统，包括：

提取模块401，所述提取模块401用以提取得到物品以及物品属性信息，且提取得到用户对物品的操作行为；所述物品是在不同场景下，待推荐主体；所述操作行为是用户在不同场景下，所包含的操作类型；

预处理模块402，所述预处理模块402用以对所述提取模块中的物品属性信息、用户对物品的操作行为进行预处理；

用户模型建立模块403，所述用户模型建立模块403用以通过所述物品属性信息和用户对物品的操作行为，得到兴趣点；通过用户对物品的操作行为，获取用户兴趣相似度，并得到相似用户；根据用户对物品基于时间维度的操作行为，得到衰减因子；根据所述兴趣点、相似用户、衰减因子建立用户模型；

个性化推荐模块404，所述个性化推荐模块404用以根据用户模型，得到用户在各个维度的兴趣特征信息；对所述兴趣特征信息进行过滤，并采用推荐算法生成待推荐结果；根据所述待推荐结果进行算法融合，得到用户个性化推荐的结果。

发明的原理：

术语说明：

1)物品。在不同场景下，待推荐的统称。比如，在书籍推荐中，物品表示书籍；在电商推荐中，物品表示商品；在电影推荐中，物品表示电影；在社交网络推荐中，物品表示人。

2)行为类型。表示用户在场景中各种操作，比如点击行为、购买行为、浏览行为、搜索行为。

3)用户模型。用以表示一个用户有别于其它用户的各种属性。包括相似用户列表、偏好的物品列表、偏好的类别、偏好的标签、对该产品的粘性程度、付费意愿程度、对物品流行度的关注程度、活跃程度、对大牌的喜好程度等。

4)属性分布。用以表示某个属性上取值情况。如类别这个属性包括有娱乐、科技、财经、时事、汽车等

5)分布概率。用以表征某个指标在用户模型中的量化值。比如，针对偏好的类别这个属性，计算用户在各个类别上的分布概率以表示用户对各个类别的偏好程度。

1、原始数据

主要包括两部分

1)物品数据，格式如下：

<itemid,publisher,categroyid,tagid>

一行表示一个物品及其属性信息，其中itemid唯一标识一个物品，publisher代表物品的发布者，可以是文章的作者、商品的品牌，categoryid代表物品所属的类别id，tagid代表物品的标签id。实际的应用中，物品本身的属性信息更多，对于服装而言还包括款式、型号、价格、颜色等

2)用户的历史行为数据，格式如下：

<userid,itemid,timestamp,action_type>

一行表示用户对物品的一次操作行为，其中userid唯一标识一个用户，itemid唯一标识一个物品，timestamp表示这次操作的时间，action_type表示这次操作的类型，如点击、购买、收藏、搜索、浏览、点赞等。

2、预处理

获取用户的浏览、点击、购买、收藏、搜索、注册、登录等数据，清理掉数据采集过程的异常情况，过滤掉关键字段为空、数值异常、类型异常等数据；进行各个用户id的映射，得到用户唯一id；以及数据去重等操作。

3、用户模型构建

1)兴趣点计算。根据物品基本属性，结合用户行为，分不同维度计算用户偏好数据。以电商为例，可以计算偏好的商品列表、类型列表、标签列表、品牌列表等。

以类别为例，

a)遍历用户的所有点击过的itemid，获取itemid对应的categoryid，统计每一个用户点击行为下的每个类别的点击次数Count(categoryidclick)，这样就得到了每个用户点击过的类别次数分布。比如用户有9次点击行为，有7次点击母婴类、1次服装类、1次家居类。得到次数分布[7,1,1]

b)计算点击过的各个物品的类别概率分布，如下：

P (c a t e g o r y i d | c l i c k) = \frac{C o u n t (c a t e g o r y i d | c l i c k)}{Σ c o u n t (c a t e g o r y i d | c l i c k)}

其中

P(categoryid|click)代表在点击行为下的类别categoryid的概率；

Count(categoryid|click)代表在点击行为下的类别categoryid的点击次数；

∑count(categoryid|click)代表在点击行为下的各个类别的点击次数之和

这样就得到点击行为下的类别概率分布。对于用户在母婴、服装和家居这三个类别的次数分布[7,1,1],总次数是9。都除以9，得到类别先验概率分布为[7/9,1/9,1/9]，即[0.778,0.111,0.111]。

同理可以计算用户购买、收藏等行为的类别概率分布。

c)类别i最终的概率如下：

P(categoryid)＝P(categoryid|behavior₁)*Weight(behavior₁)

+P(categoryid|behavior₂)*Weight(behavior₂)

+...

+P(categoryid|behavior_n)*Weight(behavior_n)

其中

P(categoryid)代表的是在各种行为下的类别categoryid的最终权重

P(categoryid|behavior)代表的是在行为类型behavior下的类别categoryid的概率

Weight(behavior)代表行为类型的权重。每种行为的价值是不同的，比如购买比点击信息更有价值，也就是购买行为更能代表用户的兴趣。最终就能得到用户在各个维度上的偏好数据。

点击行为下，母婴、服装和家居三个类别下的概率分布是[0.778,0.111,0.111]

购买行为下，母婴、服装和家居三个类别下的概率分布是[0.902,0.066,0.032]

收藏行为下，母婴、服装和家居三个类别下的概率分布是[0.882,0.111,0.007]

加入点击、购买和收藏的权重分布是[0.1,0.6,0.3]

则用户对母婴的偏好程度为：

0.778×0.1+0.902×0.6+0.882×0.3＝0.8836

同理，可以计算对服装和家居的偏好程度。

2)置信度的考量。在1)中计算概率分布使用的是“次数/总次数”的方式，忽略了另外一个很重要的关注点：置信度。用户模型的各个指标的值虽然相同，但可信度却不同。换句话说：用户A看了100篇文章，其中50篇是娱乐类的，得到偏好娱乐类的概率是0.5。而用户A又看了10篇文章，其中5篇带有互联网标签的，得到偏好互联网的概率也是0.5。在统计学中，概率的可信性取决于样本数。即：样本数越大，得到结果的可信度越高，所以前一种更可信一点，在做个性化推荐时赋予的权重要更高一些。这种事件满足统计学中的“二项分布”，为了解决这个问题，我们加入了概率的置信区间。所谓"置信区间"，就是说，以某个概率而言，概率p会落在的那个区间。根据置信区间的下限来计算偏好程度。置信区间的宽窄与样本的数量有关。比如，用户A对娱乐类与用户A对互联网标签的偏好程度都是0.5，但是在类别上的置信区间(假定[75％,85％])会比标签上的置信区间(假定[70％,90％])窄得多，因此类别的置信区间的下限值(75％)会比标签(70％)大，所以，用户类别更能表征用户的需求。置信区间的实质，就是进行可信度的修正，弥补样本量过小的影响。1927年，美国数学家EdwinBidwellWilson提出了一个修正公式，被称为"威尔逊区间"，很好地解决了小样本的准确性问题。威尔逊区间的下限值的计算公式是：

r a n k (i) = \frac{\hat{p} + \frac{1}{2 n} z_{1 - \frac{α}{2}}^{2} - z_{1 - \frac{α}{2}} \sqrt{\frac{\hat{p} (1 - \hat{p})}{n} + \frac{z_{1 - \frac{α}{2}}^{2}}{4 n^{2}}}}{1 + \frac{1}{n} z_{1 - \frac{α}{2}}^{2}}

其中表示的是属性分布概率，n表示样本大小，表示对应某个置信水平的z统计量，是常数，一般情况下，在95％的置信水平下，z统计量的值为1.96。

50篇点击25次，之前计算的值为0.5，现在是0.37。

10篇点击5次，之前计算的值为0.5，现在是0.24。

这种计算方式会起到拉低平均值的作用。

3)相似用户的计算。现实生活中，人们在面临不确定的选择时，会咨询下周边人的看法。比如有什么好看的电影或者书籍，某某品牌的衣服或者化妆品如何如何。这就是个性化推荐场景中的基于用户的协同过滤思想。即发现与用户喜好相近或者口味相似的用户，然后把这些用户偏好的物品推荐出来。用户兴趣相似度最简单的方式是余弦相似度，但这个方法过于粗糙。比如，在电商网站中很多用户会选择按照销量排序，得到的都是热门商品，但有部分用户会不断的搜索和翻页找到自己喜欢的商品。后一种方式更能反映用户的真实需求。也就是说，如果两个用户对冷门物品有过相同的行为的话，更能代表他们兴趣的相似度。JohnS.Breese提出了优化的兴趣相似度计算方法：

w_{u v} = \frac{Σ_{i &Element; N (u) \cap N (v)} \frac{1}{\log (1 + | N (i) |)}}{\sqrt{| N (u) | | N (v) |}}

N(u)表示用户u有过行为的物品列表，|N(u)|表示物品数量，公式中的削弱了用户u和用户v共同兴趣列表中热门物品对他们相似度计算的影响。

4)数据归一化。不同的用户属性数值代表了不同的量纲。为了消除不同量纲的影响，需要标准化处理，以解决数据的可比性。对用户的相似用户列表进行归一化处理：

n o r m_w e i g h t (i) = \frac{s i m i (i) - \min (s i m)}{\max (s i m) - \min (s i m)}

其中simi(i)表示两个用户的相似度，min(sim)表示所有相似用户中最小的相似度，max(sim)表示所有相似用户中最大的相似度。这种线性函数的归一化方法，是对原始数据的等比例缩放，一定程度上反应了数据的概率分布。

5)时间维度分析。用户的行为数据随着时间的推移，表征用户兴趣的能力在下降。比如用户一年的行为数据的价值就很少，时间越近表征用户兴趣和本质需求的能力越强。针对这一问题，我们引入数据的时间衰减机制。衰减因子的计算方法如下：

r a t i o = e^{\frac{- \ln (x) * t i m e_d i f f}{\max_t i m e_d i f f}}

其中time_diff表示某一次操作距离当前时间的时间间隔，max_time_diff表示待分析数据距离当前时间最大的时间间隔，x是个调节系数，可根据需要进行动态调整。这个继续方式是连续的，能够精确表示数据的衰减特性。

另外，用户本身需求也有时间周期性的，有的兴趣会一直存在，有的兴趣是临时存在。存在刻画用户需求的波动特征。我们界定了用户的长期、短期和近期的用户模型。长期需求能反应用户一直持续的兴趣点，短期需求用来刻画用户兴趣点变更过程，近期刻画用户一时兴起的需求。比如用户长期一直喜欢看财经类的新闻，近期喜欢上体育，开始关注了体育新闻。同事偶尔有个大事件发生，也临时关注下。

目前长期的用户模型，我们通过取最近3个月的数据去分析挖掘，短期的取最近两周的数据，近期的取最近24小之内的。当然这些时间点会随着推荐效果的变化不断调优。

6)人群细分。用户群体的划分会根据业务场景的变化不断调整。对于电商而言，我们会根据用户的各种行为日志去分析用户对该电商的粘性程度、付费意愿程度、对物品流行度的关注程度、活跃程度、对大牌的喜好程度等，提供一个用户的精确画像用于个性化的推荐和营销。

在本实施例中，最终得到用户模型的数据格式如下：

<userid，similar_user_list,publisher_list,item_list,category_list,tag_list,price_ratio,fresh_ratio,...>

每一行表示一个用户的用户模型。如图5是本发明一实施例中的基于概率模型和用户行为分析的推荐系统的具体结构关系示意图，其中，

similar_user_list相似列表501表示和用户兴趣相似的用户列表，多个，每一项包括用户userid和相似程度值。

item_list物品列表502表示用户偏好的物品列表，多个，每一项包括物品itemid及偏好权重。

Brand_list品牌列表503表示用户偏好的品牌列表，多个，每一项包括类品牌Brand及偏好权重。

category_list类型列表505表示用户偏好的类别列表，多个，每一项包括类别categoryid及偏好权重。

tag_list标签列表504表示用户偏好的标签列表，多个，每一项包括标签tagid及偏好权重。

price_ratio价格敏感度506表示用户对物品价格的敏感程度。

fresh_ratio新鲜敏感度507表示用户对新物品的接受程度。

作为优选地，还有用户其它细分的属性值508，包括：活跃度、高价值程度等。

4、个性化推荐

基于分析挖掘得到的用户模型，得到用户各个维度的兴趣特征信息。这些信息都是从某个角度刻画用户的信息需求，也就有自己特定的应用场景，需要分开处理。使用多种推荐算法生成待推荐结果，最后进行算法融合，得到了最终的用户个性化推荐结果。如图5是本发明一实施例中的基于概率模型和用户行为分析的推荐系统的具体结构关系示意图，其中：

步骤S501基于用户的协同过滤，主要思想是，找到与当前用户(userA)兴趣相似的用户(userB)，把这些相似用户喜欢的同时当前用户不知道的物品(item)推荐给当前用户,其中userA与userB的相似度记为simi，userB对item的喜欢程度记为bias，item本身的质量得分score。则把item推荐给userA的权重计算方式为：

weight＝simi*bias*score

这样，对所有的相似用户及用户喜欢的物品进行上述计算，得到推荐给userA的物品列表及权重，按照权重从大到小排列，取权重最高的几个物品，就得此算法的推荐结果。

步骤S502基于物品的协同过滤，预先计算好各个物品的相似物品列表，根据用户(userA)偏好的物品(itemA)，把与此物品(itemA)相似的物品(itemB)推荐给用户。物品相似度记为simi,用户对当前物品(itemA)偏好程度记为bias，物品(itemB)本身的质量得分记为score，则将itemB推荐给用户userA的权重计算方式为：

weight＝simi*bias*score

使用同样的方式，得到待推荐的物品及权重，排序后去权重最高的部分物品。

步骤S503基于内容的推荐，根据用户偏好的类别、标签、品牌等与物品相关的信息查找符合条件的物品推荐给用户。其中，对类别、标签、品牌等的偏好程度记为bias,物品本身的质量得分为score，则把物品推荐给用户的权重计算方式为：

weight＝bias*score

这样就得了待推荐物品列表及权重，排序取权重最高的部分物品。

步骤S503还包括了，热门及榜单推荐。对所有物品按照多维度特征计算得到的分数进行从高到低排序，就得到热门排行榜，针对每个类别的热门排行榜单是分类排行榜，挖掘一部分可能成为爆款的物品形成潜力榜等等各种榜单。针对不同的用户群体进行推荐。

步骤S504算法融合。不同的算法分别得到待推荐的物品及权重，但是不同的算法本身也有权重，权重越高，计算得到的结果越准确。综合待推荐物品的权重和算法权重得到待推荐物品的最终权重，按照从大到小排列，得到最后的物品列表推荐给用户。

具体地，在本实施例中，算法融合时使用加权式混合和分级混合相结合的方式。

加权式混合

主要是对每个算法赋予不同的权重，通过将多个推荐算法的结果进行加权组合在一起，最后排序得到推荐结果。

{rec}_{w e i g h t e d} (u, i) = Σ_{k = 1}^{n} β_{k} * {rec}_{k} (u, i)

其中，rec_weighted(u，i)表示物品i推荐给用户u的最终权重，n表示推荐算法数量，k代表是第k个推荐算法，β_k表示第k个推荐算法的算法权重，β_k越大代表此推荐算法越好，rec_k(u，i)表示第k个算法计算得到的物品i推荐给用户u的权重。

分级混合

主要是先界定不同的算法的好坏，优先使用好算法的推荐结果，得不到结果时再使用次好的，依次类推。

主要过程是：设置基于用户的协同过滤、基于物品的协同过滤、基于内容的推荐、热门推荐的算法权重分别为1、0.9、0.001、0.0001。首先使用算法权重高的算法作为候选集，算法权重低的推荐物品若是在候选集中存在则不加入候选集中，否则加入候选集里面，并且将推荐权重和算法权重相乘作为此物品的最终权重。对候选集中的所有物品按照权重从大到小排序，取权重最高的一些作为最终的推荐结果。

所属领域的普通技术人员应当理解：以上，所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于概率模型和用户行为分析的个性化推荐方法，其特征在于，包括如下步骤：

根据用户模型，得到用户在各个维度的兴趣特征信息；

2.根据权利要求1所述的个性化推荐方法，其特征在于，所述物品以及物品属性信息为：

<itemid，publisher，categroyid，tagid>

3.根据权利要求1所述的个性化推荐方法，其特征在于，所述用户对物品的操作行为为：

<userid，itemid，timestamp，action_type>

4.根据权利要求2所述的个性化推荐方法，其特征在于，通过所述物品属性信息和用户对物品的操作行为，得到兴趣点的方法为：

4-2)计算点击过的各个物品的类别概率分布为：

P (c a t e g o r y i d | c l i c k) = \frac{C o u n t (c a t e g o r y i d | c l i c k)}{Σ c o u n t (c a t e g o r y i d | c l i c k)}

其中，P(categoryid|click)表示在点击行为下的类别categoryid的概率，表示对不同操作类型下的属性权重；Count(categoryid|click)表示在点击行为下的类别categoryid的点击次数；Count(categoryid|click)表示在点击行为下的各个类别的点击次数之和；

4-3)类别最终的概率如下：

P(categoryid)＝P(categoryid|behavior₁)*Weight(behavior₁)

+P(categoryid|behavior₂)*Weight(behavior₂)

+...

+P(categoryid|behavior_n)*Weight(behavior_n)

5.根据权利要求4所述的个性化推荐方法，其特征在于，对不同操作类型下的属性权重P进行置信度计算：

r a n k (i) = \frac{\hat{p} + \frac{1}{2 n} z_{1 - \frac{α}{2}}^{2} - z_{1 - \frac{α}{2}} \sqrt{\frac{\hat{p} (1 - \hat{p})}{n} + \frac{z_{1 - \frac{α}{2}}^{2}}{4 n^{2}}}}{1 + \frac{1}{n} z_{1 - \frac{α}{2}}^{2}}

6.根据权利要求1所述的个性化推荐方法，其特征在于，通过用户对物品的操作行为，获取用户兴趣相似度，并得到用户u与用户v的相似度计算方法具体为：

所述用户兴趣相似度

w_{u v} = \frac{Σ_{i &Element; N (u) \cap N (v)} \frac{1}{l o g (1 + | N (i) |)}}{\sqrt{| N (u) | | N (v) |}}

其中，N(u)表示用户u有过行为的物品列表，i表示用户u和用户v都有过行为的物品，|N(i)|表示对物品i有过行为的总用户数量，|N(u)|表示用户u有过行为的物品数量，N(v)表示用户v有过行为的物品列表，|N(v)|表示用户v有过行为的物品数量。

7.根据权利要求6所述的个性化推荐方法，其特征在于，对所述相似用户进行归一化处理：

n o r m_w e i g h t (i) = \frac{s i m i (i) - m i n (s i m)}{m a x (s i m) - \min (s i m)}

8.根据权利要求1所述的个性化推荐方法，其特征在于，根据用户对物品基于时间维度的操作行为，得到：

衰减因子

r a t i o = e^{\frac{- l n (x) * t i m e_d i f f}{\max_t i m e_d i f f}}

9.根据权利要求1所述的个性化推荐方法，其特征在于，对所述兴趣特征信息进行过滤的方法包括：

基于用户的协同过滤：

则把item推荐给第一用户的权重计算方式为：

weight＝simi*bias*score

基于物品的协同过滤：

weight＝simi*bias*score

基于内容的推荐：

weight＝bias*score

对上述权重排序后，去除权重最高的物品，得到推荐结果。

10.基于概率模型和用户行为分析的个性化推荐系统，其特征在于，包括：