CN101489107B

CN101489107B - 一种基于人口属性关键字向量的协作过滤推荐方法

Info

Publication number: CN101489107B
Application number: CN200910045655XA
Authority: CN
Inventors: 贺樑; 顾君忠; 邓双义; 夏薇薇; 陈天; 任磊; 何克勤; 杨燕; 林欣; 马天龙
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2009-01-21
Filing date: 2009-01-21
Publication date: 2011-06-29
Anticipated expiration: 2029-01-21
Also published as: CN101489107A

Abstract

本发明公开了一种引入基于人口属性关键字向量的协作过滤推荐方法，特点是IPTV节目的界面上，提供用户评分的可视化菜单，并根据终端机顶盒传来的用户观看时间、行为操作、节目评分数据作出节目推荐列表给目标用户。本发明能够有效解决以往推荐系统所存在的无法对新用户产生推荐的问题，并能很好的提高对评分稀疏的用户的推荐精度。

Description

一种基于人口属性关键字向量的协作过滤推荐方法

技术领域

本发明涉及IPTV个性化推荐系统，具体地说是一种基于人口属性关键字向量的协作过滤推荐方法。

背景技术

随着Internet上信息的剧增出现了所谓的“信息过载”和“信息迷向”现象，推荐系统应运而生，他能根据用户操作历史和反馈等信息为用户找到适合其兴趣的资源，为其产生个性化的推荐。如今，推荐技术已经应用在电子商务、数字图书馆、影视娱乐等各个领域。尤其是IPTV领域，随着数字电视和通信技术的不断发展，电视节目资源越来越丰富，一方面用户为能够收看到如此之多的节目而感到兴奋不已，另一方面又为如何从成百上千个节目中找到他们真正喜爱的节目，而感到苦恼。协作过滤技术是当前最成功的个性化推荐技术，一些比较有名的推荐系统如WebWatcher、GroupLens、Firefly、SELECT、LileMinds和Citeseer都采用了协作过滤的方法。基本思想就是基于评分相似的最近邻居的评分数据向目标用户产生推荐，即根据其他用户的观点产生对目标用户的推荐列表。它基于这样一个假设：如果用户对一些项目的评分比较相似，则他们对其他项目的评分也比较相似。其出发点是找到与你兴趣相同的一组用户，术语叫做“最近邻”。最近邻搜索的核心是计算两个用户的相似度。例如用户A和用户B，首先需要获取用户A和用户B所有的评分项，然后选择一个合适的相似度计算方法，基于评分项数据，计算得到用户A和用户B的相似度数值。以上三种类型的推荐系统各有其优缺点，但所有的推荐系统均面临一个共同的问题，即冷启动问题。即传统的协作过滤算法均要求用户已对一部分项目进行过评分，当无评分或者评分非常少的时候，系统则无法产生推荐或者推荐的精度非常差。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于人口属性关键字向量依据人口属性状况建立人口属性向量，这些人口属性状况包括年龄、性别、民族、职业、收入状况、爱好、自我描述等一系列用户在注册时给定的信息。人口属性向量为一关键字集，之后根据每个用户的属性向量集计算两用户之间的相似度，并同传统推荐算法计算出的相似度混合，之后选择出跟目标邻居最相似的若干个用户，然后综合这些用户的评分来预测用户未评分的项目，最后产生推荐。这种方法能在系统冷启动阶段很好的为用户提供推荐。

本发明的目的是这样实现的：

一种引入基于人口属性关键字向量的协作过滤推荐方法，特点是IPTV节目的界面上，提供用户评分的可视化菜单，并根据终端机项盒传来的用户观看时间、行为操作、节目评分数据作出节目推荐列表给目标用户，其具体步骤如下：

a)、收集用户人口属性信息和自我描述信息；

b)、收集用户对项目的评分数据形成用户-项目评分矩阵A(m，n)；

c)、使用中文分词技术和关键字匹配寻找每个用户所拥有的关键字集合；

d)、计算目标用户和其他用户之间的关键字集合之间的交集；

e)、计算目标用户和其他用户之间的共同评分项目；

f)、根据d、e步骤的结果计算出目标用户和其他用户之间的相似度；

g)、选取相似度最大的K个用户作为其最近邻居集；

h)、根据最近邻居集对目标用户未评分项目来预测评分并排序；

i)、将预测评分最大的前N个项目作出推荐列表给目标用户。

所述“用户-项目”评分矩阵A(m，n)，以用户评分信息和用户行为数据进行矩阵排列，行代表用户，列代表项目，矩阵中的元素值则代表该行用户对该列项目的喜爱程度。

所述使用中文分词技术和关键字匹配寻找每个用户所拥有的关键字集合是在用户每次注册以及更新个人信息时使用。

所述目标用户和其他用户间的相似度是根据人口属性相似度和用户评分相似度混合后共同计算得到的。

本发明能够有效解决以往推荐系统所存在的无法对新用户产生推荐的问题，并能很好的提高对评分稀疏的用户的推荐精度。

附图说明

图1为本发明系统架构图

图2为本发明所使用的基于人口属性关键字向量的协作过滤推荐算法流程图

具体实施方式

实施例

参阅附图1～2，本发明在IPTV节目的界面上，提供用户评分的可视化菜单，并根据终端机顶盒传来的用户观看时间、行为操作、节目评分数据作出节目推荐列表给目标用户，其具体步骤如下：

(1)、数据收集部件在IPTV系统中通过跟踪用户的观看时间、行为操作等特征来获取代表用户兴趣的信息。

(2)、将上述用户的行为特征信息由系统进行原始数据的处理，并代替用户完成评价，然后根据用户评分信息和用户行为数据，整理得到“用户-项目”评分矩阵A(m，n)，评分的值从1到r_max(即打分范围为1-5)，该矩阵作为用户兴趣模型存储在推荐引擎装置上，行代表用户，列代表项目，矩阵中的元素值代表该行用户对该列项目的喜爱程度，喜爱程度设置为5档，分别对应为：①、很不喜欢，②、比较不喜欢，③、一般，④、比较喜欢，⑤、很喜欢。若用户对某项目没有评价过，那么在评分矩阵中设置为0。

(3)、通过注册时用户填写的资料来收集用户信息来创建用户属性集(userprofile)。比如包括年龄、性别、职业、自我描述等。然后采用中文分词技术将用户填写的资料分解成一关键字集。例如某用户的注册信息如下：

姓名：张小二性别：男职业：软件工程师年龄：27(青年)爱好：旅游，摄影，唱歌自我性格描述：开朗，喜爱交际。

对上述信息所分解所得的关键字集将为{男，软件，工程师，青年，旅游，摄影，唱歌，开朗，交际}。这里我们将每个用户的关键字集用p_u表示。

(4)、当目标用户a到达时，扫描评分矩阵A(m，n)，得到a已评分项目集合T_a，对每个项目t∈T_a，在W(n)中找到对应的w_t；推荐引擎根据“用户-项目”评分矩阵A(m，n)和所有用户的人口属性关键字集，采用目标用户a和其他用户u的相似度计算形成用户相似度矩阵Sim(m，m)，在相似度计算中引入人口属性关键字集，计算过程如下：

I)、计算用户i和用户j之间的共同关键字profile_ij

假设profile_i表示用户i的关键字集合，profile_j表示用户j的关键字集合。则有：

profile_ij＝profile_i∩profile_j

假设Z表示所有关键字的集合，所得到的profile_ij为一系列关键字集合profile_ij＝(w₁，w₂，...，w_x)且

II)、计算profile_ij中每个关键字w_x的权重TF_x所构成的向量Vector_ij＝(TF₁，TF₂，...，TF_x)，其中

{TF}_{x} = \log (\frac{\max_{z}}{f_{x}})

TF_x表示关键字w_x对两用户相似度影响的大小，TF_x越大，则表示w_x对两用户相似度的影响越大。其中f_x表示关键字w_x在所有用户属性关键字集合中出现的次数，max_z表示在所有用户属性关键字集合中出现最多的关键字所出现的次数，即：

也就是说，如果一个关键字w_k非常普遍，几乎每个用户属性关键字集合中都有，那么其TF_x越小。反之两用户的profile_ij中某个关键字w_k在所有用户的profile集中出现的频率相当小，那么其TF_x则比较大。极端情况，如果某关键字W_k在每个用户profile集中都出现，则其TF_x将为0。

III)、根据Vector_ij＝(TF₁，TF₂，...，TF_x)得到计算相似度SimNew_ij，公式如下：

SimN {ew}_{ij} = \underset{w_{x} &Element; Z}{Σ} {TF}_{x}

IV)、将SimNew_ij与传统协同过滤计算出的相似度SimCol_ij进行融合

由于在用户评分非常少的情况下传统的协同过滤产生的推荐精度都很差，因此在新用户评分非常少的时候，我们依然可以使用SimNew_ij。使用如下公式：

{Sim}_{ij} = \frac{λSim {New}_{ij} + (1 - λ) Sim {Col}_{ij}}{Sim {New}_{ij} + Sim {Col}_{ij}}

k是用户已评分过的项目的数量，N为系统设定值，表示在用户评分项目数量达到多少以前均考虑使用用户人口统计信息。

(5)、根据上述目标用户a与其他用户间的相似度大小并排序，找到与目标用户a最相似的前k个最近邻居，形成最近邻居集[knn₁，knn₂，...，knn_k]，使得sim(a，knn₁)＞sim(a，knn₂)＞...＞sim(a，knn_k)。

(6)、扫描A(m，n)，找到用户a未评分的项目集合T′_a，针对活动用户a每个未评分的项目j，预测用户a对项目j的评分，采用如下公式对每个t∈T′_a计算预测评分值；

P_{a, j} = \overset{&OverBar;}{R_{a}} + \frac{Σ_{i = 1}^{k} sim (a, {knn}_{i}) \times (R_{{knn}_{i}, j} - \overset{&OverBar;}{R_{{knn}_{i}}})}{Σ_{i = 1}^{k} sim (a, {knn}_{i})} - - - (2)

计算出的用户a对所有未评分项目的预测评分，将其按照从大到小进行排序，选取评分值最大的前N个项目组成推荐列表RecList(N)给当前活动用户a。

Claims

1.一种引入基于人口属性关键字向量的协作过滤推荐方法，其特征在于IPTV节目的界面上，提供用户评分的可视化菜单，并根据终端机顶盒传来的用户观看时间、行为操作、节目评分数据作出节目推荐列表给目标用户，其具体步骤如下：

a)、收集用户人口属性信息和自我描述信息；

b)、收集用户对项目的评分数据形成“用户-项目”评分矩阵A(m，n)；评分矩阵A(m，n)，以用户评分信息和用户行为数据进行矩阵排列，m为行代表用户，n为列代表项目，矩阵中的元素值则代表该行用户对该列项目的喜爱程度；

c)、使用中文分词和关键字匹配技术寻找每个用户所拥有的关键字集合；

e)、计算目标用户和其他用户之间的共同评分项目；

f)、根据步骤d)得到的用户之间关键字集合的交集，利用词频权重公式

计算交集中各个关键字的权重，其中f_x表示关键字w_x在所有用户属性关键字集合中出现的次数，max_z表示在所有用户属性关键字集合中出现最多的关键字所出现的次数；该集合中所有的关键字权重之和基于为人口属性的相似度SimNew_ij；根据步骤e)的结果，用协同过滤计算方法计算基于“用户-评分”矩阵的相似度SimCol_ij；将SimNew_ij与SimCol_ij进行融合，得目标用户和其他用户之间的相似度；其融合公式如下：

{Sim}_{ij} = \frac{λSimNe w_{ij} + (1 - λ) SimC o l_{ij}}{SimNe w_{ij} + SimC o l_{ij}}

式中：

N为系统设定值，表示在用户评分项目数量达到多少以前均考虑使用用户人口统计信息；

g)、选取相似度最大的K个用户作为其最近邻居集；

h)、根据最近邻居集对目标用户未评分项目采用预测评分公式计算得到预测评分值并对其值排序；

i)、将预测评分最大的前N个项目作出推荐列表给目标用户。

2.根据权利要求1所述的协作过滤推荐方法，其特征在于所述使用中文分词和关键字匹配技术寻找每个用户所拥有的关键字集合是在用户每次注册以及更新个人信息时使用。