CN109597899B

CN109597899B - 媒体个性化推荐系统的优化方法

Info

Publication number: CN109597899B
Application number: CN201811122241.8A
Authority: CN
Inventors: 杨成; 易芃
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2022-12-13
Anticipated expiration: 2038-09-26
Also published as: CN109597899A

Abstract

本发明公开了一种媒体个性化推荐系统的优化方法，该方法包括：媒体个性化推荐系统的新项目冷启动优化方法、媒体个性化推荐系统的新用户冷启动优化方法、以及在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法。本方法能够有效地解决现有协同过滤推荐系统中存在的新项目冷启动问题、新用户冷启动问题、以及在数据稀疏情况下难以进行项目推荐的问题，可以大大提高媒体个性化推荐系统的项目推荐的准确性，具有很好的应用前景。

Description

媒体个性化推荐系统的优化方法

技术领域

本发明涉及媒体个性化推荐技术领域，尤其涉及一种媒体个性化推荐系统的优化方法。

背景技术

媒体是指传播信息的媒介，主要包括：电视、广播、报纸、周刊(杂志)、互联网、手机等。随着互联网技术的迅猛发展，“信息过载”问题随之而来。一方面，用户难以从海量的信息中快速的寻找和发现自己感兴趣的项目；另一方面，项目缺乏有效呈现，导致出现大量冷门项目无人问津的现象。面对浩瀚的信息海洋，如何快速有效地帮助用户获取所需要的信息资源，将用户需要的项目及时而有效地反馈呈现给用户，已经成为信息技术发展的挑战之一。针对这个问题，媒体个性化推荐技术应运而生。

媒体个性化推荐技术是指将网络视音频、电视节目、在线音频、移动视频、新闻资讯等媒体在信息传播、智慧广电、数字电影、智慧健康、智慧教育、智慧家庭等领域的智能化、个性化服务应用技术。其通过对用户个人信息、用户交互信息、项目属性信息、以及周围情景信息等进行分析，挖掘用户的兴趣偏好，实现基于用户个性化偏好的项目推荐和呈现。与信息检索技术提供的“一对多”信息服务不同，媒体个性化推荐技术针对每个特定的用户进行媒体个性化内容定制，符合媒体个性化的用户需求，同时主动推荐的方式不需要用户过多的参与，用户寻找信息的成本大大降低。目前，媒体个性化推荐技术已成为各大互联网站点解决“信息过载”问题的重要手段。

在媒体个性化推荐技术中，协同过滤推荐技术以其简单有效、善于推荐特征难以提取的复杂项目等优点广受学术界和工业界研究人员的关注，以协同过滤算法为基础的推荐系统(也可称之为协同过滤推荐系统)已深入到各个应用领域。其中，协同过滤算法可以分为：基于内存的协同过滤算法和基于模型的协同过滤算法，基于内存的协同过滤算法又可以分为基于用户的协同过滤算法和基于项目的协同过滤算法。然而，随着研究的深入，新项目冷启动、新用户冷启动和数据稀疏情况下难以进行项目推荐等影响协同过滤推荐系统推荐效果的主要问题，成为研究人员越来越关注的重点。

因此，为了解决上述技术问题，本发明提供一种媒体个性化推荐系统的优化方法。

发明内容

本发明所要解决的技术问题是：现有媒体个性化推荐系统由于存在新项目冷启动、新用户冷启动和数据稀疏情况下难以进行项目推荐的问题，导致个性化推荐系统的推荐结果不准确。

为了解决上述技术问题，本发明提供了一种媒体个性化推荐系统的优化方法，该方法包括：如下所述的媒体个性化推荐系统的新项目冷启动优化方法、如下所述的媒体个性化推荐系统的新用户冷启动优化方法、以及如下所述的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法。

根据本发明的一个方面，提供了一种媒体个性化推荐系统的新项目冷启动优化方法，包括：

针对用户-旧项目评分矩阵中的每个旧项目，根据新项目包含的所有标签信息和该旧项目包含的所有标签信息，确定所述新项目与该旧项目的相似度；

根据用户-旧项目评分矩阵和所述新项目与每个旧项目的相似度，得到用户-旧项目评分矩阵中的每个用户对所述新项目的预测评分；

将每个用户对所述新项目的预测评分进行排序，根据排序结果确定目标用户，并将所述新项目推荐给该目标用户。

在本发明一优选实施例中，针对用户-旧项目评分矩阵中的每个旧项目，根据新项目包含的所有标签信息和该旧项目包含的所有标签信息，确定所述新项目与该旧项目的相似度，包括：

根据用户-旧项目评分矩阵和标签库中的所有标签信息，分别计算每个用户对所述标签库中的每个标签的评分，得到用户-标签评分矩阵，其中，所述标签库包括所有旧项目包含的所有标签；

根据所述标签库中的每个标签的属性信息，将所述标签库中的所有标签进行分类，得到标签类别集；

根据用户-标签评分矩阵，分别计算所述标签类别集包含的所有标签类别中属于相同标签类别内的各个标签的相似度，得到标签相似度集；

针对新项目包含的每个标签均执行以下操作：

根据新项目包含的该标签的属性信息，从标签类别集中查找该标签所属的标签类别；

根据该标签所属的标签类别，从标签相似度集中查找在该标签类别内该标签与该旧项目包含的同属于该标签类别的对应标签的相似度，得到所述新项目与该旧项目在该标签类别内的项目相似度；

根据所述新项目与该旧项目在各个标签类别内的项目相似度之和以及所述标签类别集包含的标签类别的总数目，得到所述新项目与该旧项目的相似度；

其中，所述新项目和该旧项目均包括所述标签类别集包含的所有标签类别。

在本发明一优选实施例中，根据以下表达式得到所述用户-标签评分矩阵：

其中，

表示用户u对标签label_a的评分，L_j表示旧项目I_j包含的所有标签的集合，r_uj表示用户u对旧项目I_j的评分，|{I_j|label_a∈L_j}|表示具有标签label_a的所有旧项目的总数目。

在本发明一优选实施例中，根据以下表达式得到所述新项目与该旧项目的相似度：

其中，sim(I_i,I_j)表示新项目I_i与旧项目I_j的相似度，N表示标签类别集包含的所有标签类别的总数目，

表示新项目I_i与旧项目I_j基于第x标签类别的相似度。

在本发明一优选实施例中，根据用户-旧项目评分矩阵和所述新项目与每个旧项目的相似度，得到用户-旧项目评分矩阵中的每个用户对所述新项目的预测评分，包括：

根据所述新项目与每个旧项目的相似度，确定所述新项目的相似项目集，所述相似项目集为与所述新项目的相似度大于第一预设相似度阈值的所有旧项目的集合；

针对用户-旧项目评分矩阵中的每个用户，根据所述用户-旧项目评分矩阵和所述相似项目集，确定第一项目集，所述第一项目集为相似项目集中该用户做出评价的所有旧项目的集合；

根据所述新项目与所述第一项目集中的每个旧项目的相似度和该用户对所述第一项目集中的每个旧项目的评分，得到该用户对所述新项目的预测评分。

在本发明一优选实施例中，根据以下表达式得到该用户对所述新项目的预测评分：

其中，r_ui表示用户u对新项目I_i的预测评分，S_i表示新项目I_i的相似项目集，I^u表示用户u做出评价的所有旧项目的集合，I_j表示旧项目，sim(I_i,I_j)表示新项目I_i与旧项目I_j的相似度，r_uj表示用户u对旧项目I_j的评分。

根据本发明的另一个方面，提供了一种媒体个性化推荐系统的新用户冷启动优化方法，包括：

获取新用户的项目推荐列表，所述项目推荐列表通过协同过滤推荐算法生成；

确定媒体个性化推荐系统的人口统计学标签集，所述人口统计学标签集为所有预设人口统计学标签组的集合；

针对与所述新用户对应的项目推荐列表中的每个项目均执行以下操作：

根据用户-项目评分矩阵，得到所述人口统计学标签集中的每个预设人口统计学标签组的用户对该项目的评分以及对该项目做出评价的用户总人数；

根据所述人口统计学标签集中的每个预设人口统计学标签组的用户对该项目的评分之和以及对该项目做出评价的用户总人数，分别得到所述人口统计学标签集中的每个预设人口统计学标签组的用户对该项目的平均偏好程度；

根据新用户的人口统计学标签信息，将所述新用户匹配到所述人口统计学标签集中的一个预设人口统计学标签组中；

根据与所述新用户匹配的预设人口统计学标签组和所述人口统计学标签集中各个预设人口统计学标签组之间的相似度以及各个预设人口统计学标签组的用户对该项目的平均偏好程度，得到所述新用户对该项目的预测偏好程度；

根据所述新用户对项目推荐列表中的每个项目的预测偏好程度，将项目推荐列表中的每个项目按照预测偏好程度的大小按降序进行重排序，并根据重排序结果为所述新用户推荐项目。

在本发明一优选实施例中，根据以下表达式得到所述人口统计学标签集中的每个预设人口统计学标签组的用户对该项目的平均偏好程度：

其中，DG_j表示第j组人口统计学标签组，j表示人口统计学标签组的组号，PDG_jx表示第j组人口统计学标签组的用户对该项目x的平均偏好程度，(A₁,A₂…A_k)表示用户的人口统计学标签，

表示对该项目x做出评价的用户中人口统计学标签组为第j组人口统计学标签组的用户对该项目x的评分，Num_x表示对该项目x做出评价的用户总人数。

在本发明一优选实施例中，根据以下表达式得到所述新用户对该项目的预测偏好程度：

其中，R_ux表示新用户u对该项目x的预测偏好程度，DG_i表示与新用户u匹配的人口统计学标签组，DG_j表示第j组人口统计学标签组，j表示人口统计学标签组的组号，

表示与新用户u匹配的人口统计学标签组和第j组人口统计学标签组的相似度，PDG_jx表示第j组人口统计学标签组的用户对该项目x的平均偏好程度，K表示人口统计学标签的类别，N_i表示第i类人口统计学标签具有的标签个数。

根据本发明的再一个方面，提供了一种在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法，包括：

针对媒体个性化推荐系统的每个目标用户均执行以下操作，所述目标用户为用户-项目评分矩阵中的用户：

根据用户-项目评分矩阵，计算目标用户与所述用户-项目评分矩阵中除所述目标用户之外的其余每个用户的相似度，得到目标用户的推荐项目候选集；

根据所述用户-项目评分矩阵及其部分项目包含的所有标签信息、以及所述目标用户的人口统计学标签，得到所述目标用户的统一域标签，所述部分项目为所述目标用户的所有偏好项目；

根据所述目标用户的统一域标签和所述目标用户的推荐项目候选集中的每个项目包含的所有标签，得到所述每个项目对所述目标用户的推荐重要度；

根据所述每个项目对所述目标用户的推荐重要度，对推荐项目候选集中的所有项目进行排序，并根据排序结果为所述目标用户推荐项目。

在本发明一优选实施例中，根据所述用户-项目评分矩阵及其部分项目包含的所有标签信息、以及所述目标用户的人口统计学标签，得到所述目标用户的统一域标签，包括：

根据所述用户-项目评分矩阵，确定所述目标用户的偏好项目集，所述偏好项目集为所述目标用户的所有偏好项目的集合；

根据所述用户-项目评分矩阵以及所述偏好项目集中的每个项目包含的各个标签类别内的所有标签信息，计算所述偏好项目集中的每个标签对所述目标用户的权重，得到所述目标用户的潜在项目标签，其中，所述用户-项目评分矩阵中的所有项目属于相同类型，且所有项目均具有相同的项目标签类别；

根据所述目标用户的人口统计学标签以及所述目标用户的潜在项目标签，得到所述目标用户的统一域标签。

在本发明一优选实施例中，根据以下表达式得到所述偏好项目集中的每个标签对所述目标用户的权重：

其中，p_u,x表示该标签x对目标用户u的权重，I_u表示目标用户u做出评价的所有项目的集合，|I_u|表示目标用户u做出评价的所有项目的总数目，

表示项目j在项目标签类别G内具有的标签的集合，

表示具有该标签x的项目的集合，i表示项目，r_ui表示目标用户u对项目i的评分。

在本发明一优选实施例中，根据所述目标用户的统一域标签和所述目标用户的推荐项目候选集中的每个项目包含的所有标签，得到所述每个项目对所述目标用户的推荐重要度，包括：

针对所述目标用户的统一域标签包含的每个项目标签类别均执行以下操作：

分别确定所述目标用户与其推荐项目候选集中的每个项目在该项目标签类别内的相同标签集，所述相同标签集为所述目标用户和每个项目在该项目标签类别内具有的相同标签的集合；

根据所述相同标签集中的每个标签对所述目标用户的权重之和以及所述相同标签集中包含的所有相同标签的总数目，得到所述目标用户与每个项目在该项目标签类别内的类内关联性；

根据所述目标用户与每个项目在该项目标签类别内的类内关联性，按降序对每个项目进行排序，得到基于该项目标签类别的候选项目列表；

根据每个项目在候选项目列表中的排列序号，得到在该项目标签类别内每个项目对所述目标用户的推荐重要度；

根据所述目标用户的统一域标签包含的所有项目标签类别内每个项目对所述目标用户的推荐重要度之和，得到所述每个项目对所述目标用户的推荐重要度。

在本发明一优选实施例中，根据以下表达式得到所述目标用户与每个项目在该项目标签类别内的类内关联性：

其中，

表示目标用户u与项目i在该项目标签类别G内的类内关联性，

表示项目i在该项目标签类别G内具有的标签的集合，

表示目标用户u在该项目标签类别G内具有的标签的集合，x表示目标用户u与项目i在该项目标签类别G内具有的相同标签，

表示该项目标签类别G内的标签x对目标用户u的权重，

表示项目i与目标用户u在该项目标签类别G内具有的相同标签的总数目。

在本发明一优选实施例中，根据以下表达式得到所述每个项目对所述目标用户的推荐重要度：

其中，R_u,i表示项目i对目标用户u的推荐重要度，M表示目标用户u的统一域标签包含的项目标签类别的总数目，

表示在目标用户u的统一域标签中的项目标签类别Y内项目i对目标用户u的推荐重要度。

根据所述用户-项目评分矩阵以及所述推荐项目候选集中的每个项目的每个评价用户的人口统计学标签、以及所述每个项目的项目标签，分别得到每个项目的统一域标签；

根据所述每个项目的统一域标签与所述目标用户的人口统计学标签，分别得到每个项目对所述目标用户的推荐重要度；

在本发明一优选实施例中，根据所述用户-项目评分矩阵以及所述推荐项目候选集中的每个项目的每个评价用户的人口统计学标签、以及所述每个项目的项目标签，分别得到每个项目的统一域标签，包括：

根据所述用户-项目评分矩阵，分别确定所述目标用户的推荐项目候选集中的每个项目的评价用户集，所述评价用户集为每个项目的所有评价用户的集合；

根据所述用户-项目评分矩阵和每个项目的评价用户集中的每个用户的人口统计学标签，分别计算所述每个项目的评价用户集中包含的每个人口统计学标签对每个项目的权重，得到每个项目的潜在人口统计学标签；

根据每个项目的项目标签以及每个项目的潜在人口统计学标签，分别得到每个项目的统一域标签。

在本发明一优选实施例中，根据以下表达式得到所述每个项目的评价用户集中包含的每个人口统计学标签对每个项目的权重：

其中，

表示人口统计学标签da_y对项目i的权重，U_i表示对项目i做出评价的所有用户的集合，|U_i|表示对项目i做出评价的所有用户的总数目，

表示用户v在人口统计学标签类别DA内具有的人口统计学标签的集合，

表示具有人口统计学标签da_y的所有用户的集合，u表示用户，r_ui表示用户u对项目i的评分。

在本发明一优选实施例中，根据所述每个项目的统一域标签与所述目标用户的人口统计学标签，分别得到每个项目对所述目标用户的推荐重要度，包括：

针对所述目标用户的每个人口统计学标签类别均执行以下操作，所述用户-项目评分矩阵中的所有用户具有相同的人口统计学标签类别：

分别确定所述目标用户与其推荐项目候选集中的每个项目在该人口统计学标签类别内的相同人口统计学标签集，所述相同人口统计学标签集为所述目标用户和每个项目在该人口统计学标签类别内具有的相同人口统计学标签的集合；

根据所述相同人口统计学标签集中的每个人口统计学标签对所述每个项目的权重以及所述相同人口统计学标签集中包含的所有相同人口统计学标签的总数目，得到所述目标用户与每个项目在该人口统计学标签类别内的类内关联性；

根据所述目标用户与每个项目在该人口统计学标签类别内的类内关联性，按降序对每个项目进行排序，得到基于该人口统计学标签类别的候选项目列表；

根据每个项目在候选项目列表中的排列序号，得到在该人口统计学标签类别内每个项目对所述目标用户的推荐重要度；

根据所述每个项目的统一域标签包含的所有人口统计学标签类别内每个项目对所述目标用户的推荐重要度之和，得到所述每个项目对所述目标用户的推荐重要度。

在本发明一优选实施例中，根据以下表达式得到所述目标用户与每个项目在该人口统计学标签类别内的类内关联性：

其中，

表示目标用户u与项目i在该人口统计学标签类别DA内的类内关联性，

表示人口统计学标签da_y对项目i的权重，

表示目标用户u在该人口统计学标签类别DA内具有的人口统计学标签的集合，

表示项目i在该人口统计学标签类别DA内具有的人口统计学标签的集合，da_y表示目标用户u与项目i在该人口统计学标签类别DA内具有的相同人口统计学标签，

表示目标用户u与项目i在该人口统计学标签类别DA内具有的相同人口统计学标签的总数目。

其中，R_u,i表示项目i对目标用户u的推荐重要度，M表示每个项目的统一域标签包含的人口统计学标签类别的总数目，

表示在每个项目的统一域标签包含的人口统计学标签类别Y内项目i对目标用户u的推荐重要度。

在本发明一优选实施例中，根据用户-项目评分矩阵，计算目标用户与所述用户-项目评分矩阵中除所述目标用户之外的其余每个用户的相似度，得到目标用户的推荐项目候选集，包括：

根据用户-项目评分矩阵，计算目标用户与所述用户-项目评分矩阵中除所述目标用户之外的其余每个用户的相似度；

根据所述目标用户与所述用户-项目评分矩阵中除所述目标用户之外的其余每个用户的相似度，确定所述目标用户的相似用户集，所述相似用户集为与所述目标用户的相似度大于第二预设相似度阈值的所有用户的集合；

根据所述用户-项目评分矩阵，得到所述相似用户集中的所有用户做出评价的项目以及所述目标用户做出评价的项目，从而得到所述目标用户的推荐项目候选集。

在本发明一优选实施例中，根据以下表达式得到所述目标用户的推荐项目候选集：

其中，C表示目标用户u的推荐项目候选集，u₁,u₂,...u_N表示目标用户u的相似用户集中的所有用户，

表示目标用户u的相似用户u_N做出评价的所有项目的集合，I_u表示目标用户u做出评价的所有项目的集合。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

应用本实施例提供的媒体个性化推荐系统的优化方法，由于包括上述媒体个性化推荐系统的新项目冷启动优化方法、媒体个性化推荐系统的新用户冷启动优化方法、以及在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法，能够有效地解决现有协同过滤推荐系统中存在的新项目冷启动问题、新用户冷启动问题、以及在数据稀疏情况下难以进行项目推荐的问题，可以大大提高媒体个性化推荐系统的项目推荐的准确性，具有很好的应用前景。

本发明的其它特征和优点将在随后的说明书中阐述，并且部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例一的媒体个性化推荐系统的新项目冷启动优化方法的流程示意图；

图2为图1中的步骤S101的具体流程示意图；

图3为图1中的步骤S102的具体流程示意图；

图4为本发明实施例二的媒体个性化推荐系统的新用户冷启动优化方法的流程示意图；

图5为本发明实施例三的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法的流程示意图；

图6为图5中的步骤S301的具体流程示意图；

图7为图5中的步骤S302的具体流程示意图；

图8为图5中的步骤S303的具体流程示意图；

图9为本发明实施例四的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法的流程示意图；

图10为图9中的步骤S402的具体流程示意图；

图11为图9中的步骤S403的具体流程示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

为解决现有媒体个性化推荐系统由于存在新项目冷启动、新用户冷启动和数据稀疏情况下难以进行项目推荐的问题，导致个性化推荐系统的推荐结果不准确的技术问题，本发明实施例提供了一种媒体个性化推荐系统的优化方法。该优化方法包括：如实施例一所述的媒体个性化推荐系统的新项目冷启动优化方法、如实施例二所述的媒体个性化推荐系统的新用户冷启动优化方法、以及如实施例三或实施例四所述的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法。下面对各方法进行详细说明。

实施例一

新项目冷启动问题是影响协同过滤推荐系统商业价值的主要问题。新项目冷启动问题是指，当新项目加入推荐系统时，由于新项目缺少丰富的用户偏好评价信息或者甚至完全没有用户偏好评价信息，推荐系统无法为新项目进行有效的目标用户过滤，导致在将新项目推荐给用户时，目标用户的推荐列表命中率极低。具体来说，由于缺乏足够的用户偏好评价信息，基于模型的协同过滤算法难以有效地为新项目建立用户偏好模型，因此，基于内存的协同过滤算法成为新项目冷启动情况下，协同过滤推荐系统的不二选择。以表1为例：

表1某推荐系统的用户-项目评分矩阵

	项目1	项目2	项目3	项目4
					用户A	5	4
用户B		3	5
					用户C	4		3
用户D				5

表1简单显示了一个推荐系统的用户-项目评分矩阵。其中，项目4为新加入推荐系统的新项目。若选择基于用户的协同过滤算法作为主要推荐算法，即协同过滤算法中推荐列表的项目候选集为各邻居用户做出评价的项目的集合的交集。当为用户A进行推荐时，由于项目4并没有被用户A的最近邻用户C进行评价，项目4并不能进入用户A的推荐列表的项目候选集中，因此，推荐系统无法将项目4推荐给用户A。同理，推荐系统也无法将项目4推荐给用户B和用户C。若选择基于项目的协同过滤算法作为主要推荐算法，即协同过滤算法中推荐列表的项目候选集为项目最近邻的目标用户做出评价的所有项目的集合。但由于项目4仅有用户D对其做出的偏好评价，推荐算法无法为其进行项目最近邻计算，项目4无法进入任何用户的推荐列表的项目候选集中，因此，推荐系统也无法将项目4推荐给任何用户。

通过上述分析可以发现，新项目由于缺乏足够的用户评分，现有协同过滤算法无法将其有效筛选到目标用户的推荐项目候选集中，无法为新项目进行有效的用户偏好预测，最终造成在为新项目推荐用户时，目标用户的推荐列表命中率极低的现象。而在实际协同过滤推荐系统中，每天都将发布数以百计的新项目，有效地推荐新项目不仅是保证用户推荐内容新鲜感和及时性的必要条件，也是保证系统商业价值的重要方法。因此，优化解决新项目冷启动问题是实际推荐系统中需要重点考虑的问题之一。

为了解决上述技术问题，本实施例提供了一种媒体个性化推荐系统的新项目冷启动优化方法。

为了便于理解本实施例，首先需要说明的是，用户-旧项目评分矩阵包括：媒体个性化推荐系统的所有旧项目、媒体个性化推荐系统的所有用户、以及每个用户对部分旧项目的评分。其中，新项目与所有旧项目属于相同类型。

图1为本发明实施例一的媒体个性化推荐系统的新项目冷启动优化方法的流程示意图。

如图1所示，本实施例的媒体个性化推荐系统的新项目冷启动优化方法，主要包括以下步骤S101至步骤S103。

在步骤S101中，针对用户-旧项目评分矩阵中的每个旧项目，根据新项目包含的所有标签信息和该旧项目包含的所有标签信息，确定新项目与该旧项目的相似度。其具体过程如图2所示。

首先，执行步骤S1011。根据用户-旧项目评分矩阵和标签库中的所有标签信息，分别计算每个用户对标签库中的每个标签的评分，得到用户-标签评分矩阵，其中，该标签库包括所有旧项目包含的所有标签。

优选地，根据以下表达式(1)得到用户-标签评分矩阵：

其中，

其次，执行步骤S1012。根据标签库中的每个标签的属性信息，将标签库中的所有标签进行分类，得到标签类别集。

接着，执行步骤S1013。根据用户-标签评分矩阵，分别计算标签类别集包含的所有标签类别中属于相同标签类别内的各个标签的相似度，得到标签相似度集。

在本发明一优选实施例中，根据以下表达式(2)得到相同标签类别内的各个标签的相似度：

其中，

表示相同标签类别内的标签label_a与标签label_b的相似度，

表示用户u对标签label_a的评分，

表示用户u对标签label_b的评分，L_a表示对标签label_a做出评价的所有用户的集合，L_b表示对标签label_b做出评价的所有用户的集合。

在本发明另一优选实施例中，根据以下表达式(3)得到相同标签类别内的各个标签的相似度：

其中，

表示相同标签类别内的标签label_a与标签label_b的相似度，

表示用户u对标签label_a的评分，

表示所有用户对标签label_a的评分的平均值，

表示用户u对标签label_b的评分，

表示所有用户对标签label_b的评分的平均值，L_a表示对标签label_a做出评价的所有用户的集合，L_b表示对标签label_b做出评价的所有用户的集合。

在本发明再一优选实施例中，针对极其稀疏的用户-标签评分矩阵，可以使用矩阵分解方法来分别计算标签类别集包含的所有标签类别中属于相同标签类别内的各个标签的相似度。具体地，将用户-标签评分矩阵转化为用户-潜在因素矩阵和潜在因素-标签矩阵，并根据潜在因素-标签矩阵来计算相同标签类别内的各个标签的相似度。

接着，执行步骤S1014。针对新项目包含的每个标签均执行以下操作：根据新项目包含的该标签的属性信息，从标签类别集中查找该标签所属的标签类别。

接着，执行步骤S1015。根据该标签所属的标签类别，从标签相似度集中查找在该标签类别内该标签与该旧项目包含的同属于该标签类别的对应标签的相似度，得到新项目与该旧项目在该标签类别内的项目相似度。

最后，执行步骤S1016。根据新项目与该旧项目在各个标签类别内的项目相似度之和以及标签类别集包含的标签类别的总数目，得到新项目与该旧项目的相似度。

需要说明的是，新项目和该旧项目均包括标签类别集包含的所有标签类别，且新项目包含的标签为标签库中的标签的子集。

优选地，根据以下表达式(4)得到新项目与该旧项目的相似度：

表示新项目I_i与旧项目I_j基于第x标签类别的相似度。

在步骤S102中，根据用户-旧项目评分矩阵和新项目与每个旧项目的相似度，得到用户-旧项目评分矩阵中的每个用户对新项目的预测评分。其具体过程如图3所示。

首先，执行步骤S1021。根据新项目与每个旧项目的相似度，确定新项目的相似项目集，该相似项目集为与新项目的相似度大于第一预设相似度阈值的所有旧项目的集合。

其次，执行步骤S1022。针对用户-旧项目评分矩阵中的每个用户，根据用户-旧项目评分矩阵和相似项目集，确定第一项目集，该第一项目集为相似项目集中该用户做出评价的所有旧项目的集合。

最后，执行步骤S1023。根据新项目与第一项目集中的每个旧项目的相似度和该用户对第一项目集中的每个旧项目的评分，得到该用户对新项目的预测评分。

优选地，根据以下表达式(5)得到该用户对新项目的预测评分：

在步骤S103中，将每个用户对新项目的预测评分进行排序，根据排序结果确定目标用户，并将新项目推荐给该目标用户。

为了便于理解上述技术方案，下面通过举例的方式对上述技术方案进行详细描述。

假设项目为电影项目，用户-旧项目评分矩阵如表2所示。

表2某推荐系统的用户-旧项目评分矩阵

	项目1	项目2	项目3
				用户A	5	4
用户B		3	5
				用户C	4		3

其中，旧项目1的标签集为{喜剧，动漫，导演A，导演B，演员a，演员b}，旧项目2的标签集为{惊悚，科幻，导演B，导演C，演员b，演员c}，旧项目3的标签集为{悲剧，导演C，演员c}，新项目4的标签集为{喜剧，导演A，导演C，演员a，演员c}，则标签库为{喜剧，动漫，惊悚，科幻，悲剧，导演A，导演B，导演C，演员a，演员b，演员c}。

针对用户-旧项目评分矩阵中的每个旧项目(旧项目1、旧项目2、旧项目3)均执行以下操作，在此以旧项目1为例进行说明：

首先，执行步骤S101。根据新项目4包含的所有标签信息和旧项目1包含的所有标签信息，确定新项目4与旧项目1的相似度。其具体过程如下：

首先，执行步骤S1011。根据用户-旧项目评分矩阵和标签库中的所有标签信息，利用表达式(1)分别计算每个用户(用户A、用户B、用户C)对标签库中的每个标签的评分，得到用户-标签评分矩阵。

接着，执行步骤S1012。根据标签库中的每个标签的属性信息，将标签库中的所有标签进行分类，得到标签类别集。在本示例中，标签类别集为{流派标签类别，导演标签类别，演员标签类别}，其中，流派标签类别包含的标签为(喜剧、动漫、惊悚、科幻、悲剧)，导演标签类别包含的标签为(导演A、导演B、导演C)，演员标签类别包含的标签为(演员a、演员b、演员c)。

接着，执行步骤S1013。根据用户-标签评分矩阵，利用表达式(2)、(3)或矩阵分解方法分别计算流派标签类别内各个标签的相似度、导演标签类别内各个标签的相似度、以及演员标签类别内各个标签的相似度，得到标签相似度集。

接着，执行步骤S1014。针对新项目4包含的每个标签均执行以下操作，在此以标签“导演A”为例进行说明：根据该标签的属性信息，从标签类别集中查找该标签所属的标签类别为“导演标签类别”。

接着，执行步骤S1015。根据标签“导演A”所属的标签类别“导演标签类别”，从标签相似度集中查找在“导演标签类别”内标签“导演A”与旧项目1包含的“导演标签类别”的对应标签(即标签“导演A”、标签“导演B”)的相似度，得到新项目4与旧项目1在导演标签类别内的项目相似度。

重复执行上述步骤S1014和步骤S1015，分别得到新项目4与旧项目1在流派标签类别内的项目相似度、以及新项目4与旧项目1在演员标签类别内的项目相似度。

最后，执行步骤S1016。根据新项目4与旧项目1在流派标签类别内的项目相似度、在导演标签类别内的项目相似度、以及在演员标签类别内的项目相似度之和，以及标签类别集包含的标签类别的总数目，利用表达式(4)得到新项目4与旧项目1的相似度。

重复执行上述各步骤，分别得到新项目4与旧项目2的相似度、以及新项目4与旧项目3的相似度。

其次，执行步骤S102。根据用户-旧项目评分矩阵和新项目4与每个旧项目(旧项目1、旧项目2、旧项目3)的相似度，得到用户-旧项目评分矩阵中的每个用户(用户A、用户B、用户C)对新项目4的预测评分。其具体过程如下：

首先，执行步骤S1021。根据新项目4与每个旧项目(旧项目1、旧项目2、旧项目3)的相似度，确定新项目4的相似项目集。在本示例中，假设新项目4的相似项目集为{旧项目1，旧项目3}。

接着，执行步骤S1022。针对用户-旧项目评分矩阵中的用户A、用户B、用户C，根据用户-旧项目评分矩阵和相似项目集，分别确定用户A的第一项目集为{旧项目1}，用户B的第一项目集为{旧项目3}，用户C的第一项目集为{旧项目1，旧项目3}。

接着，执行步骤S1023。根据新项目4与旧项目1的相似度和用户A对旧项目1的评分，利用表达式(5)得到用户A对新项目4的预测评分Y1。根据新项目4与旧项目3的相似度和用户B对旧项目3的评分，利用表达式(5)得到用户B对新项目4的预测评分Y2。根据新项目4与旧项目1的相似度、新项目4与旧项目3的相似度、用户C对旧项目1的评分、以及用户C对旧项目3的评分，利用表达式(5)得到用户C对新项目4的预测评分Y3。

最后，执行步骤S103。将用户A对新项目4的预测评分Y1、用户B对新项目4的预测评分Y2、用户C对新项目4的预测评分Y3进行排序，根据排序结果选取预测评分较高的用户作为新项目4的目标用户，并将新项目4推荐给该目标用户。

应用本实施例提供的媒体个性化推荐系统的新项目冷启动优化方法，通过挖掘新项目包含的所有标签信息以及每个旧项目包含的所有标签信息，建立相同标签类别内各个标签的潜在关联，并基于该关联得到新项目与每个旧项目的相似度，再结合用户-旧项目评分矩阵，便可以确定新项目的目标用户。本方法大大提高了新项目最近邻寻找的准确性，从而有效提高了媒体个性化推荐系统的新项目推荐的准确性。

实施例二

新用户冷启动问题是协同过滤推荐系统的固有问题。新用户冷启动问题是指，当新用户加入推荐系统时，由于新用户缺少足够的历史偏好评价信息，协同过滤算法无法为新用户进行高效的最近邻寻找或是偏好建模，导致推荐系统无法为新用户进行准确的项目推荐。以表3为例：

表3某推荐系统的用户-项目评分矩阵

	项目1	项目2	项目3	项目4
					用户A	2	1		5
用户B		3	5
					用户C	4		3
用户D				4

表3简单显示了一个推荐系统的用户-项目评分矩阵。其中，用户D为推荐系统的新用户。由于用户评分稀疏，基于模型的协同过滤算法难以为用户进行有效的偏好建模，因此，在这种情况下，基于内存的协同过滤算法则成为协同过滤推荐系统的首选。若选择基于用户的协同过滤算法，当为新用户D进行推荐时，由于新用户D只对项目4进行了偏好评价，只有用户A能与新用户D进行有效的用户相似度计算。但从用户A的历史偏好评价信息显示，用户A并不喜欢项目1和项目2，因此，利用与用户A理论上偏好相似度最高的新用户D，也可能并不会喜欢项目1和项目2，推荐无法继续。同时，可以发现，基于项目的协同过滤算法由于无法为项目4进行有效最近邻计算，因此，推荐系统也无法为新用户D进行有效推荐。

在实际协同过滤推荐系统中，每天都有数以百计的新用户加入推荐系统，新用户冷启动问题极大地影响了新用户的推荐体验。因此，优化解决新用户冷启动问题也是实际推荐系统中需要重点考虑的问题之一。

为了解决上述技术问题，本实施例提供了一种媒体个性化推荐系统的新用户冷启动优化方法。

为了便于理解本实施例，首先需要说明的是，用户-项目评分矩阵包括：媒体个性化推荐系统的所有项目、媒体个性化推荐系统的所有用户、以及每个用户对部分项目的评分。其中，新用户与媒体个性化推荐系统的所有用户具有相同的人口统计学标签类别，且项目推荐列表中的所有项目属于相同类型。

图4为本发明实施例二的媒体个性化推荐系统的新用户冷启动优化方法的流程示意图。

如图4所示，本实施例的媒体个性化推荐系统的新用户冷启动优化方法，主要包括以下步骤S201至步骤S207。

在步骤S201中，获取新用户的项目推荐列表，该项目推荐列表通过协同过滤推荐算法生成。

在步骤S202中，确定媒体个性化推荐系统的人口统计学标签集，该人口统计学标签集为所有预设人口统计学标签组的集合。

在步骤S203中，针对与新用户对应的项目推荐列表中的每个项目均执行以下操作：根据用户-项目评分矩阵，得到人口统计学标签集中的每个预设人口统计学标签组的用户对该项目的评分以及对该项目做出评价的用户总人数。

在步骤S204中，根据人口统计学标签集中的每个预设人口统计学标签组的用户对该项目的评分之和以及对该项目做出评价的用户总人数，分别得到人口统计学标签集中的每个预设人口统计学标签组的用户对该项目的平均偏好程度。

优选地，根据以下表达式(6)得到人口统计学标签集中的每个预设人口统计学标签组的用户对该项目的平均偏好程度：

在步骤S205中，根据新用户的人口统计学标签信息，将新用户匹配到人口统计学标签集中的一个预设人口统计学标签组中。

在步骤S206中，根据与新用户匹配的预设人口统计学标签组和人口统计学标签集中各个预设人口统计学标签组之间的相似度以及各个预设人口统计学标签组的用户对该项目的平均偏好程度，得到新用户对该项目的预测偏好程度。

优选地，根据以下表达式(7)得到新用户对该项目的预测偏好程度：

在步骤S207中，根据新用户对项目推荐列表中的每个项目的预测偏好程度，将项目推荐列表中的每个项目按照预测偏好程度的大小按降序进行重排序，并根据重排序结果为新用户推荐项目。

需要说明的是，本发明不局限于使用协同过滤推荐算法生成的项目推荐列表，使用任何其他方法生成的项目推荐列表同样适用于本发明。

针对新用户u执行以下操作：

首先，执行步骤S201。获取新用户u的项目推荐列表，该项目推荐列表通过协同过滤推荐算法生成。在本示例中，假设新用户u的项目推荐列表

其中，

表示在新用户u的项目推荐列表r^u中排序为第i个的项目。

其次，执行步骤S202。确定媒体个性化推荐系统的人口统计学标签集，该人口统计学标签集为所有预设人口统计学标签组的集合。

在本示例中，假设预设人口统计学标签类别共2类，分别为：性别类、年龄类。其中，性别类人口统计学标签为：男、女，年龄类人口统计学标签为：青年、中年、老年，则共有6组不同的人口统计学标签组，每一组人口统计学标签组用DG_j表示，j为人口统计学标签组的组号。第一组人口统计学标签组DG₁＝(男、青年)，第二组人口统计学标签组DG₂＝(男、中年)，第三组人口统计学标签组DG₃＝(男、老年)，第四组人口统计学标签组DG₄＝(女、青年)，第五组人口统计学标签组DG₅＝(女、中年)，第六组人口统计学标签组DG₆＝(女、老年)，则媒体个性化推荐系统的人口统计学标签集为{DG₁,DG₂,DG₃,DG₄,DG₅,DG₆}。

接着，执行步骤S203。针对与新用户u对应的项目推荐列表中的每个项目均执行以下操作，在此以项目

作为示例进行说明：根据用户-项目评分矩阵，得到人口统计学标签集中的每个预设人口统计学标签组的用户对项目

的评分以及对项目

做出评价的用户总人数。

需要说明的是，由于用户-项目评分矩阵中的每个用户都具有相同的人口统计学标签类别(性别类人口统计学标签、年龄类人口统计学标签)，因此，每个用户均对应于上述六组不同的人口统计学标签组中的一个人口统计学标签组。

接着，执行步骤S204。根据第一组人口统计学标签组DG₁的用户对项目

的评分之和以及对项目

做出评价的用户总人数，利用表达式(6)得到第一组人口统计学标签组DG₁的用户对项目

的平均偏好程度。类似地，可以分别得到第二组人口统计学标签组DG₂的用户至第六组人口统计学标签组DG₆的用户对项目

的平均偏好程度。

重复执行上述步骤S203和步骤S204，可以分别得到第一组人口统计学标签组DG₁的用户至第六组人口统计学标签组DG₆的用户对项目

的平均偏好程度，以及第一组人口统计学标签组DG₁的用户至第六组人口统计学标签组DG₆的用户对项目

的平均偏好程度。

接着，执行步骤S205。根据新用户u的人口统计学标签信息，将新用户u匹配到人口统计学标签集中的一个预设人口统计学标签组中。在本示例中，假设新用户u的人口统计学标签为(男、中年)，则该新用户u被匹配到第二组人口统计学标签组DG₂中。

接着，执行步骤S206。根据第二组人口统计学标签组DG₂与第一组人口统计学标签组DG₁的相似度以及第一组人口统计学标签组DG₁的用户对项目

的平均偏好程度，第二组人口统计学标签组DG₂与第二组人口统计学标签组DG₂的相似度以及第二组人口统计学标签组DG₂的用户对项目

的平均偏好程度，第二组人口统计学标签组DG₂与第三组人口统计学标签组DG₃的相似度以及第三组人口统计学标签组DG₃的用户对项目

的平均偏好程度，第二组人口统计学标签组DG₂与第四组人口统计学标签组DG₄的相似度以及第四组人口统计学标签组DG₄的用户对项目

的平均偏好程度，第二组人口统计学标签组DG₂与第五组人口统计学标签组DG₅的相似度以及第五组人口统计学标签组DG₅的用户对项目

的平均偏好程度，以及第二组人口统计学标签组DG₂与第六组人口统计学标签组DG₆的相似度以及第六组人口统计学标签组DG₆的用户对项目

的平均偏好程度，利用表达式(7)得到新用户u对项目

的预测偏好程度Y1。

类似地，可以分别得到新用户u对项目

的预测偏好程度Y2、以及新用户u对项目

的预测偏好程度Y3。

最后，执行步骤S207。根据新用户u对项目推荐列表中的项目

的预测偏好程度Y1、新用户u对项目推荐列表中的项目

的预测偏好程度Y2、以及新用户u对项目推荐列表中的项目

的预测偏好程度Y3，将项目推荐列表中的项目

项目

以及项目

按照预测偏好程度的大小按降序进行重排序，并根据重排序结果为新用户u推荐项目。

应用本实施例提供的媒体个性化推荐系统的新用户冷启动优化方法，通过为新用户的项目推荐列表中的每个项目构建人口统计学标签，建立用户-项目的直接关联，并利用这种关联实现对项目推荐列表中的每个项目的重排序，根据重排序结果为新用户推荐项目。本方法大大提高了媒体个性化推荐系统的项目推荐的准确性。

实施例三

数据稀疏性问题是协同过滤推荐系统的主要研究点之一。在实际推荐系统中，海量的用户和大量的项目导致用户-项目评分矩阵维度巨大，同时，绝大部分用户只会评价或者访问数以万计的项目中很少的一部分，从而导致用户-项目评分矩阵中的大量评分缺失。现有协同过滤算法在处理高维且极其稀疏的用户-项目评分矩阵时，推荐系统的项目推荐准确率严重下降，致使用户体验不佳，导致推荐系统的用户大量流失。以表4为例：

表4某推荐系统的用户-项目评分矩阵

	项目1	项目2	项目3	项目4	...
						用户A	4		1
用户B			2
						用户C		5
用户D			3
						...

表4简单显示了一个协同过滤推荐系统的用户-项目评分矩阵。由于用户对项目的偏好评价极其稀疏，采用基于模型的协同过滤算法缺乏足够丰富的数据，建模准确度极低，因此采用基于内存的协同过滤算法进行推荐计算。以用户A为例，若采用基于用户的协同过滤算法为其进行推荐，由于用户A做出评价的项目与用户B、用户C、以及用户D并无重合，推荐算法无法计算用户A的最近邻用户，因此，推荐系统无法为用户A进行推荐。同理，由于对各个项目做出评价的用户的交集为空，因此，基于项目的协同过滤算法也无法为用户A进行推荐。

由于实际推荐系统的用户-项目评分矩阵的高维性无法避免，同时，用户精力和评分积极性有限，协同过滤推荐系统的数据稀疏性必然存在。因此，需要提供一种在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法，以有效提高媒体个性化推荐系统在数据稀疏情况下为目标用户推荐项目的准确性。

为了解决上述技术问题，本实施例提供了一种在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法。

为了便于理解本实施例，首先需要说明的是，用户-项目评分矩阵包括：媒体个性化推荐系统的所有项目、媒体个性化推荐系统的所有用户、以及每个用户对部分项目的评分。其中，用户-项目评分矩阵中的所有项目属于相同类型，且所有项目均具有相同的项目标签类别。

在本实施例中，将媒体个性化推荐系统的用户-项目评分矩阵的稀疏度在1％-2％之间的情形称为用户-项目评分矩阵数据稀疏，也就是说，媒体个性化推荐系统存在数据稀疏性问题。其中，媒体个性化推荐系统的用户-项目评分矩阵的稀疏度的计算公式为：用户-项目评分矩阵中的所有用户对该用户-项目评分矩阵中的项目做出评分的总数目/(用户-项目评分矩阵的长度×用户-项目评分矩阵的宽度)。

图5为本发明实施例三的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法的流程示意图。

如图5所示，本实施例的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法，主要包括以下步骤S301至步骤S304。

针对媒体个性化推荐系统的每个目标用户均执行以下操作，该目标用户为用户-项目评分矩阵中的用户：

在步骤S301中，根据用户-项目评分矩阵，计算目标用户与用户-项目评分矩阵中除目标用户之外的其余每个用户的相似度，得到目标用户的推荐项目候选集。其具体过程如图6所示。

首先，执行步骤S3011。根据用户-项目评分矩阵，计算目标用户与用户-项目评分矩阵中除目标用户之外的其余每个用户的相似度。

优选地，根据以下表达式(8)得到目标用户与用户-项目评分矩阵中除目标用户之外的其余每个用户的相似度：

其中，

表示目标用户u与用户-项目评分矩阵中除目标用户u之外的其余每个用户v的相似度，r_ui表示目标用户u对项目i的评分，

表示目标用户u对所有项目的评分的平均值，r_vi表示用户v对项目i的评分，

表示用户v对所有项目的评分的平均值，I_u表示目标用户u做出评价的所有项目的集合，I_v表示用户v做出评价的所有项目的集合。

其次，执行步骤S3012。根据目标用户与用户-项目评分矩阵中除目标用户之外的其余每个用户的相似度，确定目标用户的相似用户集，该相似用户集为与目标用户的相似度大于第二预设相似度阈值的所有用户的集合。

最后，执行步骤S3013。根据用户-项目评分矩阵，得到相似用户集中的所有用户做出评价的项目以及目标用户做出评价的项目，从而得到目标用户的推荐项目候选集。

优选地，根据以下表达式(9)得到目标用户的推荐项目候选集：

在步骤S302中，根据用户-项目评分矩阵及其部分项目包含的所有标签信息、以及目标用户的人口统计学标签，得到目标用户的统一域标签，该部分项目为目标用户的所有偏好项目。其具体过程如图7所示。

首先，执行步骤S3021。根据用户-项目评分矩阵，确定目标用户的偏好项目集，该偏好项目集为目标用户的所有偏好项目的集合。

其次，执行步骤S3022。根据用户-项目评分矩阵以及偏好项目集中的每个项目包含的各个标签类别内的所有标签信息，计算偏好项目集中的每个标签对目标用户的权重，得到目标用户的潜在项目标签，其中，用户-项目评分矩阵中的所有项目属于相同类型，且所有项目均具有相同的项目标签类别。

优选地，根据以下表达式(10)得到偏好项目集中的每个标签对目标用户的权重：

表示项目j在项目标签类别G内具有的标签的集合，

最后，执行步骤S3023。根据目标用户的人口统计学标签以及目标用户的潜在项目标签，得到目标用户的统一域标签。

在步骤S303中，根据目标用户的统一域标签和目标用户的推荐项目候选集中的每个项目包含的所有标签，得到每个项目对目标用户的推荐重要度。其具体过程如图8所示。

针对目标用户的统一域标签包含的每个项目标签类别均执行以下操作：

首先，执行步骤S3031。分别确定目标用户与其推荐项目候选集中的每个项目在该项目标签类别内的相同标签集，该相同标签集为目标用户和每个项目在该项目标签类别内具有的相同标签的集合。

其次，执行步骤S3032。根据相同标签集中的每个标签对目标用户的权重之和以及相同标签集中包含的所有相同标签的总数目，得到目标用户与每个项目在该项目标签类别内的类内关联性。

优选地，根据以下表达式(11)得到目标用户与每个项目在该项目标签类别内的类内关联性：

其中，

表示目标用户u与项目i在该项目标签类别G内的类内关联性，

表示项目i在该项目标签类别G内具有的标签的集合，

表示该项目标签类别G内的标签x对目标用户u的权重，

接着，执行步骤S3033。根据目标用户与每个项目在该项目标签类别内的类内关联性，按降序对每个项目进行排序，得到基于该项目标签类别的候选项目列表。

接着，执行步骤S3034。根据每个项目在候选项目列表中的排列序号，得到在该项目标签类别内每个项目对目标用户的推荐重要度。

最后，执行步骤S3035。根据目标用户的统一域标签包含的所有项目标签类别内每个项目对目标用户的推荐重要度之和，得到每个项目对目标用户的推荐重要度。

优选地，根据以下表达式(12)得到每个项目对目标用户的推荐重要度：

在步骤S304中，根据每个项目对目标用户的推荐重要度，对推荐项目候选集中的所有项目进行排序，并根据排序结果为目标用户推荐项目。

需要说明的是，本发明不局限于使用上述方法生成的推荐项目候选集，使用任何其他方法生成的推荐项目候选集同样适用于本发明。

假设用户-项目评分矩阵如表5所示，其中，项目为电影项目，电影项目包含的项目标签类别为：流派标签类别、导演标签类别、演员标签类别。

表5某推荐系统的用户-项目评分矩阵

	项目1	项目2	项目3	项目4	项目5
						用户A		3	3
用户B	4		2
						用户C	5		1
用户D			3	2

针对媒体个性化推荐系统的每个目标用户均执行以下操作，在此以目标用户A为例进行说明：

首先，执行步骤S301。根据用户-项目评分矩阵，分别计算目标用户A与用户B的相似度、目标用户A与用户C的相似度、以及目标用户A与用户D的相似度，得到目标用户A的推荐项目候选集。其具体过程如下：

首先，执行步骤S3011。根据用户-项目评分矩阵，利用表达式(8)分别计算目标用户A与用户B的相似度、目标用户A与用户C的相似度、以及目标用户A与用户D的相似度。

其次，执行步骤S3012。根据目标用户A与用户B的相似度、目标用户A与用户C的相似度、以及目标用户A与用户D的相似度，将与目标用户A的相似度大于第二预设相似度阈值的所有用户作为目标用户A的相似用户，从而得到目标用户A的相似用户集。在本示例中，假设目标用户A的相似用户为：用户B、用户C、用户D，则目标用户A的相似用户集为{用户B，用户C，用户D}。

最后，执行步骤S3013。根据用户-项目评分矩阵，得到用户B做出评价的项目为项目1和项目3，用户C做出评价的项目为项目2和项目5，用户D做出评价的项目为项目3和项目4，目标用户A做出评价的项目为项目4和项目5，利用表达式(9)得到目标用户A的推荐项目候选集为{项目1，项目2，项目3}。

其次，执行步骤S302。根据用户-项目评分矩阵及其部分项目包含的所有标签信息、以及目标用户A的人口统计学标签，得到目标用户A的统一域标签，该部分项目为目标用户A的所有偏好项目。在本示例中，将目标用户A对项目的评分大于2分的项目作为目标用户A的偏好项目。其具体过程如下：

首先，执行步骤S3021。根据用户-项目评分矩阵，确定目标用户A的偏好项目为：项目4和项目5，则目标用户A的偏好项目集为{项目4，项目5}。

在本示例中，假设项目4的流派标签类别包含的标签为：喜剧、动漫，导演标签类别包含的标签为：导演A、导演B，演员标签类别包含的标签为：演员a、演员b。项目5的流派标签类别包含的标签为：惊悚、科幻，导演标签类别包含的标签为：导演B、导演C，演员标签类别包含的标签为：演员b、演员c。

其次，执行步骤S3022。根据用户-项目评分矩阵以及偏好项目集中的每个项目(项目4、项目5)包含的各个标签类别(流派标签类别、导演标签类别、演员标签类别)内的所有标签信息，利用表达式(10)计算偏好项目集中的每个标签对目标用户A的权重，并将权重值不为0的标签作为目标用户A的潜在项目标签。在本示例中，假设项目4和项目5包含的所有标签都为目标用户A的潜在项目标签。

最后，执行步骤S3023。根据目标用户A的人口统计学标签以及目标用户A的潜在项目标签，得到目标用户A的统一域标签。在本示例中，假设目标用户A的人口统计学标签为(男、中年)，则目标用户A的统一域标签为(男、中年、喜剧、动漫、惊悚、科幻、导演A、导演B、导演C、演员a、演员b、演员c)。

在步骤S303中，根据目标用户A的统一域标签和目标用户A的推荐项目候选集中的每个项目(项目1、项目2、项目3)包含的所有标签，得到每个项目(项目1、项目2、项目3)对目标用户A的推荐重要度。

在本示例中，假设项目1的流派标签类别包含的标签为：喜剧，导演标签类别包含的标签为：导演A、导演B，演员标签类别包含的标签为：演员a、演员b。项目2的流派标签类别包含的标签为：惊悚，导演标签类别包含的标签为：导演B、导演C，演员标签类别包含的标签为：演员b、演员c。项目3的流派标签类别包含的标签为：科幻，导演标签类别包含的标签为：导演A、导演C，演员标签类别包含的标签为：演员a、演员c。

针对目标用户的统一域标签包含的每个项目标签类别(流派标签类别、导演标签类别、演员标签类别)均执行以下操作，在此以导演标签类别为例进行说明：

首先，执行步骤S3031。确定目标用户A与项目1在导演标签类别内具有的相同标签为：导演A、导演B，则目标用户A与项目1在导演标签类别内的相同标签集1为{导演A，导演B}。确定目标用户A与项目2在导演标签类别内具有的相同标签为：导演B、导演C，则目标用户A与项目2在导演标签类别内的相同标签集2为{导演B，导演C}。确定目标用户A与项目3在导演标签类别内具有的相同标签为：导演A、导演C，则目标用户A与项目3在导演标签类别内的相同标签集3为{导演A，导演C}。

其次，执行步骤S3032。根据相同标签集1中的每个标签对目标用户A的权重之和以及相同标签集1中包含的所有相同标签的总数目，利用表达式(11)得到目标用户A与项目1在导演标签类别内的类内关联性Y1。根据相同标签集2中的每个标签对目标用户A的权重之和以及相同标签集2中包含的所有相同标签的总数目，利用表达式(11)得到目标用户A与项目2在导演标签类别内的类内关联性Y2。根据相同标签集3中的每个标签对目标用户A的权重之和以及相同标签集3中包含的所有相同标签的总数目，利用表达式(11)得到目标用户A与项目3在导演标签类别内的类内关联性Y3。

接着，执行步骤S3033。根据目标用户A与项目1在导演标签类别内的类内关联性Y1、目标用户A与项目2在导演标签类别内的类内关联性Y2、以及目标用户A与项目3在导演标签类别内的类内关联性Y3，按降序对项目1、项目2、项目3进行排序，得到基于导演标签类别的候选项目列表。在本示例中，假设基于导演标签类别的候选项目列表为(项目1，项目2，项目3)。

接着，执行步骤S3034。根据项目1、项目2、项目3在候选项目列表中的排列序号，可以得到：在导演标签类别内，项目1对目标用户A的推荐重要度

项目2对目标用户A的推荐重要度

项目3对目标用户A的推荐重要度

重复执行上述步骤S3031至步骤S3034，可以分别得到在演员标签类别内每个项目(项目1、项目2、项目3)对目标用户A的推荐重要度，以及在流派标签类别内每个项目(项目1、项目2、项目3)对目标用户A的推荐重要度。

在本示例中，假设基于演员标签类别的候选项目列表为(项目2，项目1，项目3)，则在演员标签类别内，项目1对目标用户A的推荐重要度

项目2对目标用户A的推荐重要度

项目3对目标用户A的推荐重要度

假设基于流派标签类别的候选项目列表为(项目1，项目2，项目3)，则在流派标签类别内，项目1对目标用户A的推荐重要度

项目2对目标用户A的推荐重要度

项目3对目标用户A的推荐重要度

最后，执行步骤S3035。根据目标用户A的统一域标签包含的所有项目标签类别(流派标签类别、导演标签类别、演员标签类别)内每个项目(项目1、项目2、项目3)对目标用户A的推荐重要度之和，利用表达式(12)，可以得到：项目1对目标用户A的推荐重要度

项目2对目标用户A的推荐重要度

项目3对目标用户A的推荐重要度

在步骤S304中，根据每个项目(项目1、项目2、项目3)对目标用户A的推荐重要度，将项目1、项目2、项目3按升序进行排序(即为{项目1，项目2，项目3})，并根据排序结果为目标用户A推荐项目。

应用本实施例提供的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法，通过为目标用户构建统一域标签，建立目标用户与推荐项目候选集中的每个项目的直接关联，并根据目标用户与推荐项目候选集中的每个项目的关联程度对推荐项目候选集中的所有项目进行排序，并根据排序结果为目标用户推荐项目。本方法大大提高了在媒体个性化推荐系统的数据稀疏情况下的项目推荐的准确性。

实施例四

本实施例提供了另一种在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法。

为了便于理解本实施例，首先需要说明的是，用户-项目评分矩阵包括：媒体个性化推荐系统的所有项目、媒体个性化推荐系统的所有用户、以及每个用户对部分项目的评分。其中，用户-项目评分矩阵中的所有项目属于相同类型，且所有用户均具有相同的人口统计学标签类别。

图9为本发明实施例四的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法的流程示意图。

如图9所示，本实施例的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法，主要包括以下步骤S401至步骤S404。

在步骤S401中，根据用户-项目评分矩阵，计算目标用户与用户-项目评分矩阵中除目标用户之外的其余每个用户的相似度，得到目标用户的推荐项目候选集。

需要说明的是，由于本步骤与步骤S301完全相同，在此不再赘述。

在步骤S402中，根据用户-项目评分矩阵以及推荐项目候选集中的每个项目的每个评价用户的人口统计学标签、以及每个项目的项目标签，分别得到每个项目的统一域标签。其具体过程如图10所示。

首先，执行步骤S4021。根据用户-项目评分矩阵，分别确定目标用户的推荐项目候选集中的每个项目的评价用户集，该评价用户集为每个项目的所有评价用户的集合。

其次，执行步骤S4022。根据用户-项目评分矩阵和每个项目的评价用户集中的每个用户的人口统计学标签，分别计算每个项目的评价用户集中包含的每个人口统计学标签对每个项目的权重，得到每个项目的潜在人口统计学标签。

优选地，根据以下表达式(13)得到每个项目的评价用户集中包含的每个人口统计学标签对每个项目的权重：

其中，

最后，执行步骤S4023。根据每个项目的项目标签以及每个项目的潜在人口统计学标签，分别得到每个项目的统一域标签。

在步骤S403中，根据每个项目的统一域标签与目标用户的人口统计学标签，分别得到每个项目对目标用户的推荐重要度。其具体过程如图11所示。

针对目标用户的每个人口统计学标签类别均执行以下操作，该用户-项目评分矩阵中的所有用户具有相同的人口统计学标签类别：

首先，执行步骤S4031。分别确定目标用户与其推荐项目候选集中的每个项目在该人口统计学标签类别内的相同人口统计学标签集，该相同人口统计学标签集为目标用户和每个项目在该人口统计学标签类别内具有的相同人口统计学标签的集合。

其次，执行步骤S4032。根据相同人口统计学标签集中的每个人口统计学标签对每个项目的权重以及相同人口统计学标签集中包含的所有相同人口统计学标签的总数目，得到目标用户与每个项目在该人口统计学标签类别内的类内关联性。

优选地，根据以下表达式(14)得到目标用户与每个项目在该人口统计学标签类别内的类内关联性：

其中，

表示人口统计学标签da_y对项目i的权重，

接着，执行步骤S4033。根据目标用户与每个项目在该人口统计学标签类别内的类内关联性，按降序对每个项目进行排序，得到基于该人口统计学标签类别的候选项目列表。

接着，执行步骤S4034。根据每个项目在候选项目列表中的排列序号，得到在该人口统计学标签类别内每个项目对目标用户的推荐重要度。

最后，执行步骤S4035。根据每个项目的统一域标签包含的所有人口统计学标签类别内每个项目对目标用户的推荐重要度之和，得到每个项目对目标用户的推荐重要度。

优选地，根据以下表达式(15)得到每个项目对目标用户的推荐重要度：

在步骤S404中，根据每个项目对目标用户的推荐重要度，对推荐项目候选集中的所有项目进行排序，并根据排序结果为目标用户推荐项目。

假设用户-项目评分矩阵如表6所示，项目为电影项目。用户A至用户D均具有性别类人口统计学标签和年龄类人口统计学标签，其中，用户A的人口统计学标签组为(男、中年)，用户B的人口统计学标签组为(女、老年)，用户C的人口统计学标签组为(男、青年)，用户D的人口统计学标签组为(男、中年)。

表6某推荐系统的用户-项目评分矩阵

首先，执行步骤S401。根据用户-项目评分矩阵，分别计算目标用户A与用户B的相似度、目标用户A与用户C的相似度、以及目标用户A与用户D的相似度，得到目标用户A的推荐项目候选集。由于该步骤与步骤S301完全相同，在此参考步骤S301对其进行描述。其具体过程如下：

其次，执行步骤S3012。根据目标用户A与用户B的相似度、目标用户A与用户C的相似度、以及目标用户A与用户D的相似度，将与目标用户A的相似度大于第二预设相似度阈值的所有用户作为目标用户A的相似用户，从而得到目标用户A的相似用户集。在本示例中，假设目标用户A的相似用户为：用户B、用户C、以及用户D，则目标用户A的相似用户集为{用户B，用户C，用户D}。

最后，执行步骤S3013。根据用户-项目评分矩阵，得到用户B做出评价的项目为项目1和项目3，用户C做出评价的项目为项目1、项目2和项目5，用户D做出评价的项目为项目3和项目4，目标用户A做出评价的项目为项目4和项目5，利用表达式(9)得到目标用户A的推荐项目候选集为{项目1，项目2，项目3}。

其次，执行步骤S402。根据用户-项目评分矩阵以及推荐项目候选集中的每个项目的每个评价用户的人口统计学标签、以及每个项目的项目标签，分别得到每个项目的统一域标签。其具体过程如下：

首先，执行步骤S4021。根据用户-项目评分矩阵，得到目标用户A的推荐项目候选集中，项目1的评价用户集为{用户B，用户C}，项目2的评价用户集为{用户C}，项目3的评价用户集为{用户B，用户D}。

其次，执行步骤S4022。根据用户-项目评分矩阵和项目1的评价用户集中的每个用户(用户B、用户C)的人口统计学标签，利用表达式(13)分别计算项目1的评价用户集中包含的每个人口统计学标签(男、女、青年、老年)对项目1的权重，若该权重值不为0，则将其作为项目1的潜在人口统计学标签。在本示例中，假设人口统计学标签(男、女、青年、老年)对项目1的权重均不为0，则项目1的潜在人口统计学标签为(男、女、青年、老年)。

类似地，可以分别得到项目2的潜在人口统计学标签和项目3的潜在人口统计学标签。在本示例中，假设项目2的潜在人口统计学标签为(男、青年)，项目3的潜在人口统计学标签为(男、女、中年、老年)。

最后，执行步骤S4023。根据每个项目(项目1、项目2、项目3)的项目标签以及每个项目的潜在人口统计学标签，分别得到每个项目的统一域标签。

在本示例中，假设项目1的项目标签为(喜剧、导演A、导演B、演员a、演员b)，项目2的项目标签为(惊悚、导演B、导演C、演员b、演员c)，项目3的项目标签为(科幻、导演A、导演C、演员a、演员c)，则根据项目1的项目标签以及项目1的潜在人口统计学标签，得到项目1的统一域标签为(喜剧、导演A、导演B、演员a、演员b、男、女、青年、老年)。根据项目2的项目标签以及项目2的潜在人口统计学标签，得到项目2的统一域标签为(惊悚、导演B、导演C、演员b、演员c、男、青年)。根据项目3的项目标签以及项目3的潜在人口统计学标签，得到项目3的统一域标签为(科幻、导演A、导演C、演员a、演员c、男、女、中年、老年)。

接着，执行步骤S403。根据每个项目(项目1、项目2、项目3)的统一域标签与目标用户A的人口统计学标签，分别得到每个项目(项目1、项目2、项目3)对目标用户A的推荐重要度。其具体过程如下：

针对目标用户A的每个人口统计学标签类别(性别类人口统计学标签、年龄类人口统计学标签)均执行以下操作，在此以性别类人口统计学标签为例进行说明：

首先，执行步骤S4031。确定目标用户A与项目1在性别类人口统计学标签内具有的相同标签为：男，则目标用户A与项目1在性别类人口统计学标签内的相同人口统计学标签集1为{男}。确定目标用户A与项目2在性别类人口统计学标签内具有的相同标签为：男，则目标用户A与项目2在性别类人口统计学标签内的相同人口统计学标签集2为{男}。确定目标用户A与项目3在性别类人口统计学标签内具有的相同人口统计学标签为：男，则目标用户A与项目3在性别类人口统计学标签内的相同人口统计学标签集3为{男}。

其次，执行步骤S4032。根据相同人口统计学标签集1中的人口统计学标签(男)对项目1的权重以及相同人口统计学标签集1中包含的所有相同人口统计学标签的总数目，利用表达式(14)得到目标用户A与项目1在性别类人口统计学标签内的类内关联性Y1。根据相同人口统计学标签集2中的人口统计学标签(男)对项目2的权重以及相同人口统计学标签集2中包含的所有相同人口统计学标签的总数目，利用表达式(14)得到目标用户A与项目2在性别类人口统计学标签内的类内关联性Y2。根据相同人口统计学标签集3中的人口统计学标签(男)对项目3的权重以及相同人口统计学标签集3中包含的所有相同人口统计学标签的总数目，利用表达式(14)得到目标用户A与项目3在性别类人口统计学标签内的类内关联性Y3。

接着，执行步骤S4033。根据目标用户A与项目1在性别类人口统计学标签内的类内关联性Y1、目标用户A与项目2在性别类人口统计学标签内的类内关联性Y2、以及目标用户A与项目3在性别类人口统计学标签内的类内关联性Y3，按降序对项目1、项目2、项目3进行排序，得到基于性别类人口统计学标签的候选项目列表。在本示例中，假设基于性别类人口统计学标签的候选项目列表为(项目1，项目2，项目3)。

接着，执行步骤S4034。根据项目1、项目2、项目3在候选项目列表中的排列序号，可以得到：在性别类人口统计学标签内，项目1对目标用户A的推荐重要度

项目2对目标用户A的推荐重要度

项目3对目标用户A的推荐重要度

重复执行上述步骤S4031至步骤S4034，可以得到在年龄类人口统计学标签内项目1、项目2、项目3对目标用户A的推荐重要度。在本示例中，假设基于年龄类人口统计学标签的候选项目列表为(项目3，项目1，项目2)，则在年龄类人口统计学标签内，项目1对目标用户A的推荐重要度

项目2对目标用户A的推荐重要度

项目3对目标用户A的推荐重要度

最后，执行步骤S4035。根据每个项目(项目1、项目2、项目3)的统一域标签包含的所有人口统计学标签类别(性别类人口统计学标签、年龄类人口统计学标签)内每个项目对目标用户A的推荐重要度之和，利用表达式(15)，可以得到：项目1对目标用户A的推荐重要度

项目2对目标用户A的推荐重要度

项目3对目标用户A的推荐重要度

在步骤S404中，根据项目1、项目2、项目3对目标用户A的推荐重要度，将项目1、项目2、项目3按升序进行排序(即为{项目1，项目3，项目2})，并根据排序结果为目标用户A推荐项目。

应用本实施例提供的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法，通过为目标用户的推荐项目候选集中的每个项目构建统一域标签，建立目标用户与推荐项目候选集中的每个项目的直接关联，并根据目标用户与推荐项目候选集中的每个项目的关联程度对推荐项目候选集中的所有项目进行排序，并根据排序结果为目标用户推荐项目。本方法大大提高了在媒体个性化推荐系统的数据稀疏情况下的项目推荐的准确性。

实施例五

本实施例提供了一种媒体个性化推荐系统的优化方法，该方法包括：如实施例一所述的媒体个性化推荐系统的新项目冷启动优化方法、如实施例二所述的媒体个性化推荐系统的新用户冷启动优化方法、以及如实施例三或实施例四所述的在媒体个性化推荐系统的数据稀疏情况下的项目推荐优化方法。由于以上方法均在上述各个实施例中进行详细阐述，在此不再赘述。

本领域的技术人员应该明白，上述的本发明的各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的保护范围，仍须以所附的权利要求书所界定的范围为准。