CN108304556A

CN108304556A - 基于内容与协同过滤相结合的个性化推荐方法

Info

Publication number: CN108304556A
Application number: CN201810117468.7A
Authority: CN
Inventors: 杨楠; 曹三省
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-07-20
Anticipated expiration: 2038-02-06
Also published as: CN108304556B

Abstract

本申请提供一种基于内容与协同过滤相结合的个性化推荐方法，步骤如下:根据已发布的新闻数据获得新闻特征训练向量集；使用无监督深度学习自编码器进行训练，训练完成后得到统一特征提取器；生成用户特征训练向量集；用户特征训练向量集输入到统一特征提取器生成用户偏好模型；通过相似度比较生成用户近邻表；用户登录时系统获取待推荐的新闻列表；生成待推荐新闻特征训练向量；将待推荐新闻特征训练向量作为统一特征提取器的输入，生成待推荐新闻的基于内容的统一特征表示；将新闻的基于内容的统一特征表示与用户偏好模型进行相似度比较得到基于内容的推荐列表；根据用户近邻表得到协同过滤推荐列表；加权后生成混合推荐的Top‑N推荐列表。

Description

基于内容与协同过滤相结合的个性化推荐方法

技术领域

本发明属于互联网技术领域，具体地涉及一种基于内容与协同过滤相结合的个性化推荐方法。

背景技术

随着互联网高速发展，人们在充分享受了网上冲浪带来的开放、交互等便利的同时，也面临越来越严重的从海量信息中查找和使用所需要信息的问题，即所谓的信息过载问题。推荐技术或推荐引擎就是专门针对信息过载问题的技术解决方案，能够帮助人们在更短时间内定位到他们想要的内容，并有效发掘长尾，成为了继搜索引擎之后的重要信息工具。近年来通过与快速发展的大数据、人工智能(深度学习)等新技术的结合，取得了很大的提升，逐渐演变为一个重要和独立研究领域，过去十多年中大量全球顶尖技术专家和工程师投身于推荐技术的研究与应用中，不少优秀的新方法被提出。

当前推荐系统的主流的有基于协同过滤的推荐、基于内容的推荐，以及结合多种推荐方法形成的混合推荐。现有主流的推荐技术应用在融合媒体环境中存在如下问题：

1、当前应用较多的协同过滤推荐方法，简单来说就是利用某兴趣相投、拥有共同经验的群体的喜好来推荐用户感兴趣的信息，因此需要根据用户回应并记录下来以达到过滤的目的进而帮助别人筛选信息。但是在融合媒体环境中很少有用户会给自己浏览的内容进行打分，这就造成了协同过滤方法在媒体领域存在推荐的数据稀疏、个性化不足、冷启动等问题。

2、基于内容的推荐方法，是发现物品和内容的相关性，然后基于用户以前的喜好记录来推荐给用户相似的物品或内容，在个性化方面是强项，但在满足长尾方面的有所不足，难以实现媒体内容推送的新奇性、新鲜性等特点。而且这种方法使用人口统计学特征和用户行为特征生成用户偏好模型，再与被推荐物的特征进行比对不但容易侵犯用户的隐私，而且两种特征的选择、提取和匹配是难点。

3、现有的多种推荐方法形成的混合推荐，只是多种方式的简单组合，各种方法在特征定义等方面采取了各自的标准、没有形成统一，并没有从根本上解决单一推荐方法的缺点，也没有很好形成混合推荐的效率优势。

4、当前主流的商用推荐系统主要还在采用上一代机器学习等技术，在推荐算法的底层亟待得到提升。

发明内容

根据融合媒体的发展需求，以新闻推荐为目标，针对现有主流推荐技术的适用性问题，利用人工智能的深度学习自编码器发明了一种以基于内容的推荐为主、协同过滤推荐为辅，两种推荐相结合的个性化推荐技术，大力提高个性化推荐的效率和准确性。具体为公开了一种基于内容与协同过滤相结合的个性化推荐方法，步骤如下:

S1：从新闻服务器中获取已发布过的新闻数据，处理后获得新闻特征训练数据集；

S2：将新闻特征训练数据集通过向量空间模型的TF-IDF方法进行向量化，获得新闻特征训练向量集；

S3：搭建一种无监督学习人工神经网络；

S4：将新闻特征训练向量集作为无监督学习人工神经网络的输入，采用随机梯度下降方法训练出无监督学习神经网络的参数集，训练完成后用一个二值化层替换输出层，从而得到统一特征提取器；

S5：从新闻服务器的日志文件中获取用户对新闻的阅读记录，将新闻特征训练向量集按每个用户ID进行分类，生成基于新闻特征的用户特征训练向量集；

S6：将按用户ID分类的用户特征训练向量集输入到统一特征提取器；

S7：统一特征提取器生成各个用户的用户偏好模型；

S8：使用各个用户的用户偏好模型，通过相似度比较生成一个统一的用户近邻表；

S9：系统在用户登录时获取近期一个预定时段内待推荐的新闻列表；

S10：将每条待推荐新闻数据预处理，再通过向量空间模型的TF-IDF方法进行向量化，获得每条待推荐新闻的新闻特征训练向量；

S11：将待推荐新闻的特征训练向量作为统一特征提取器的输入，生成待推荐新闻的基于内容的统一特征表示；

S12：将待推荐新闻的基于内容的统一特征表示与所述用户的用户偏好模型进行相似度比较，用相似度排名靠前的新闻生成基于内容的推荐列表；

S13：根据所述用户近邻表来对待推荐新闻进行分类和排列，用与所述用户相关用户阅读过的新闻生成协同过滤推荐列表；

S14：通过对基于内容的推荐列表和协同过滤推荐列表进行混合，生成混合推荐的Top-N推荐列表。

优选的，所述无监督学习人工神经网络为无监督深度学习自编码器。

优选的，所述无监督深度学习自编码器，在训练时通过在输入中加入高斯白噪声，可以具备降噪自编码的特点，并且通过反向传播和随机梯度下降来训练得到神经网络的参数集θ。

优选的，所述无监督深度学习自编码器的代价函数为：

其中k_σ为高斯核，σ为核的大小，

无监督深度学习自编码器的目标函数为：

其中，x表示编码器的输入，f_θ()表示编码器的输出，g_θ()表示解码器输出；L_Mc()表示单个输入的代价函数，λ是收缩自编码器的正则化参数，||||_F是F范数符号,J(x)是编码器Jacobian矩阵，θ是深度自编码器的参数集。

优选的，所述S8和S12中的相似度比较采用余弦相似度比较方法或海明距离相似度比较方法。

优选的，所述S14中所述基于内容的推荐列表和所述协同过滤推荐列表进行混合，所述混合为采用不同的预设权重和基于时间权的权重进行加权混合、加权平均混合或特征混合来生成混合推荐的Top-N推荐列表。

本申请的优点是：

1、设计一种新型混合推荐方法，来规避单一推荐方法存在明显缺陷，实现扬长避短，在保证个性化推荐的同时满足长尾效应，提升准确率等指标。

2、在生成用户偏好模型时不使用用户人口统计学特征，保护了用户隐私。

3、采用新型人工智能技术，通过对(新闻)内容进行建模，统一了用户、新闻内容特征的分布式表示，统一了基于用户推荐和协同过滤推荐两种推荐方法的特征标准，有效提高融合媒体推荐效率。

附图说明

图1本发明的融合媒体混合推荐框架示意图；

图2本发明的离线训练流程示意图；

图3本发明的在线推荐流程示意图；

图4本发明的精确率比较图；

图5本发明的召回率比较图。

具体实施方式

融合媒体首先提出的是个性化要求，主要是为了解决传统媒体重内容生产发布、轻用户个性需求和体验，造成用户流失的问题；同时融合媒体具备丰富的媒体大数据资源，应充分挖掘和利用用户之间的相似性来兼顾长尾效应。因此，本申请在对现有基于内容的推荐方法和协同过滤推荐方法进行改进的基础上，以基于内容的推荐方法为主，协同过滤推荐方法为辅，设计了一种新型的基于内容与协同过滤相结合的个性化推荐方法，

根据图1可以看到基于内容的推荐和协同过滤推荐两个板块，通过离线处理环节得到无监督统一特征提取器和新闻、用户的“基于内容的统一特征表示”(URBC)，通过在线推荐环节对新的待推荐新闻进行处理，分别得到基于内容的推荐列表和基于协同过滤的推荐列表，再通过混合推荐得到最终的Top-N推荐列表。

现有的基于内容的推荐方法基本都使用用户行为特征作为用户偏好模型，再与被推荐物的特征进行比对。但造成的问题一是容易侵犯用户的隐私，二是两种特征的选择、提取和匹配是难点。基于协同过滤的推荐不论是user-based(基于用户的)还是item-based(基于物品的)，都是要找到user-user间的相似性或item-item间的相似性，通过生成user-item倒排表，可以用基于关联规则的常规方法进行推荐、也可以采用矩阵分解等方法得到因子分解模型、隐语义模型等进行推荐。由于基于协同过滤的推荐主要是基于用户的评分数据，所以通常又叫评分预测，但以手机新闻客户端为例，用户对新闻的浏览量大，但很少在读后对专业媒体制作的新闻进行评分，因此评分预测难以进行。

基于当前人工智能在特征学习方面的巨大优点，本发明选择从用户阅读过的大量新闻中提取出高阶特性，将基于文本分类的新闻内容特征作为提取用户偏好分布式表示和新闻内容特征分布式表示的基础，提出了“基于内容的统一特征表示”(UnifiedRepresentation Based on Content，URBC)的概念。本发明技术方案的关键是将新闻特征、用户特征用“基于内容的统一特征表示”来作为共同的基础，从而可以将推荐问题转化为文本相似度比较问题。由此实现了两个统一和一个结合：一是统一了用户、新闻内容特征的分布式表示，便于基于内容的推荐进行相似度比较；二是统一了基于用户推荐和协同过滤推荐两种推荐方法的特征标准，避免了奇异值分解(SVD)等复杂操作；三是将混合推荐方法与无监督学习算法平滑、有效的结合起来。

通过无监督学习提取到特征的分布式表示和加入时间因子，本申请提出当前用户偏好模型(Current User Preference Model，CUPM)的概念，能够跟踪和适应用户爱好的变迁，是一种新颖的用户建模方法，不仅能克服了隐私问题，还统一了用户特征和新闻特征，能够直接应用于基于内容推荐中的相似度比较，还可以利用用户之间的相似性生成“用户近邻表”用于协同过滤推荐中的预测，避免了传统协同过滤方法中倒排表生成、矩阵分解等步骤，降低了在线推荐的计算复杂度，从而实现有效优化融合媒体混合推荐架构的内部机制，使得特征比对和推荐的效率大大提升。

在本实例中，基于内容与协同过滤相结合的个性化推荐方法，主要分为了离线训练和在线推荐两个环节。

1、离线训练

离线训练的主要目的是使用已发布的新闻文本和用户访问日志信息，输入到深度自编码器模型中进行无监督学习，得到所需要的“统一特征提取器”；利用统一特征提取器得到“基于内容的统一特征表示”，并生成“用户偏好模型”和“用户近邻表”，为后续在线推荐环节的基于内容的推荐和协同过滤推荐做准备。根据图2，具体步骤如下：

S1：按照预定义的时间段，从新闻服务器中获取已发布过的新闻数据，进行数据清洗、整理、中文分词、停用词清除等预处理，获得“新闻特征训练数据集”；

S2：将新闻特征训练数据集通过向量空间模型的TF-IDF方法进行向量化，获得“新闻特征训练向量集”；

S3：搭建无监督学习神经网络，在本申请中使用无监督深度学习自编码器；

S4：将“新闻特征训练向量集”作为无监督深度学习自编码器的输入，采用随机梯度下降方法训练出无监督深度学习自编码器的参数集，训练完成后用一个二值化层替换输出层，从而得到统一特征提取器，用于后续的在线推荐；

S5：从新闻服务器的日志文件中获取预定义的时间段内用户对新闻的阅读记录，将“新闻特征训练向量集”按每个用户ID进行分类，生成基于新闻特征的“用户特征训练向量集”；

S6：将按用户ID分类的“用户特征训练向量集”输入到统一特征提取器；

S7：统一特征提取器生成各个用户的用户偏好模型，用于后续的基于内容的推荐；

S8：使用各个用户的用户偏好模型，通过相似度比较生成一个统一的用户近邻表，其中相似越度高的用户在表中的距离越近，便于实现后续的协同过滤推荐。

2.在线推荐

在线推荐的目的是在用户登录融合媒体终端(如手机客户端)时，用户的待推荐新闻列表结合离线训练环节生成的用户偏好模型和用户近邻表，快速生成针对该用户个性化的新闻推荐列表。附图3为在线推荐流程示意图，具体步骤如下：

S9：系统在用户A₁登录时，按预定义的时间段获取用户A₁尚未阅读过的新闻列表，作为待推荐的新闻列表，待推荐的新闻列表中包含每条新闻的ID；

S12：将待推荐新闻的基于内容的统一特征表示与用户A1的偏好模型进行相似度比较，根据相似度大小排列得到基于内容的推荐列表，本领域技术人员可以采用现有生成基于内容的推荐列表的方法来实现此步骤；

S13：同时根据用户近邻表来对待推荐新闻进行分类和排列，用与用户A1最接近用户阅读过的新闻生成协同过滤推荐列表，本领域技术人员可以采用现有生成协同过滤推荐列表的方法来实现此步骤；

S14：通过对基于内容的推荐列表和协同过滤推荐列表采用预设的权重和基于时间权的权重，进行加权混合，生成混合推荐的Top-N推荐列表，从而实现基于内容推荐为主、协同过滤推荐为辅的推荐。也可以采用其它混合方式，如通过加权平均、特征混合来生成混合推荐的Top-N推荐列表。

上述步骤S4中，“统一特征提取器”的构造对“基于内容的统一特征表示”是一个关键。“统一特征提取器”吸收了自编码器和降噪自编码器的特点，采用了全新的设计，从流型学习的观点可以高效学习到高维数据在低维空间的非线性流型。

自编码器借鉴了人脑的特点，其原理是尝试通过训练一个编码和解码机制，使编码器的输入能够在解码器的输出端重现。在输出端完全重构输入并不容易、也无实际意义，但通过设计特殊的结构、在复制中适当加入约束、使用特殊的代价函数和训练方法，使其只能实现近似复制，就能迫使模型按权重对输入中的数据进行复制，从而在自编码器的编码器中构造出数据中有用的分布式特征，近年来成为生成模型研究的前沿。原型自动编码器体现出了较好的特征提取能力，但在使用中容易出现过拟合等问题，对实际数据失去泛化能力，随后陆续出现了针对原型进行改进和优化的衍生型自编码器。

本发明的深度自编码器在设计上同时考虑了加入噪声和减少噪声。加入噪声是指借助了DenoisingAutoEncoders的思路，在输入X中加入高斯分布的白噪声，使解码器在输出时强制解除噪声的干扰，从而提高系统的抗过拟合性能。通过反向传播和随机梯度下降(SGD)来训练出人工神经网络的参数集θ。具体的训练方法和步骤本领域技术人员都可以通过现有技术实现。

减少噪声是指在训练中提高系统对非高斯分布噪声和扰动的抵抗能力。为进一步降低新闻特征数据集、用户特征数据集中离群点的影响，并为在方案中进一步采用二值化生成提供基础，在设计上还部分采用了收缩自动编码器(Contractive Autoencoders，CAE)的特点。收缩自动编码器是在原型自动编码器的代价函数表达式中加入解析性收缩惩罚因子，以减少特征表示的自由度，使隐层神经元达到饱和状态，进而将输出数据限制在参数空间的一定范围内。该惩罚因子实际上的是编码器雅可比矩阵(Jacobian)的F范数(Frobenius范数)，其作用是降低离群值(outlier)对编码器的影响，抑制训练样本(处在低维流形曲面上)在所有方向上的扰动，辅助编码器学习有用数据特征。此外，收缩自动编码器学习到的分布式表示具有“饱和”的特点，即大部分隐层单元的值都靠近两头(0或1)，并且对输入的偏导数接近于0。

在一般自编码器训练中常使用均方误差函数(Mean Square Error，MSE)作为代价函数，对高斯分布的噪声有一定的容忍度，但在本例中考虑到极小化变量等扰动的存在，如在用户偏好之外的偶然阅读情况，为了提高鲁棒性本实施例中使用最大相关熵(MaximumCorrentropy，MC)作为代价函数：

其中k_σ为高斯核，标准差σ取1.0，高斯核函数为：

本发明中深度自编码器整体的目标函数为：

上中，x表示编码器的输入，f_θ()表示编码器的输出，g_θ()表示解码器输出；L_MC()表示单个输入的代价函数，λ是收缩自编码器的正则化参数，||||_F是F范数符号,J(x)是编码器Jacobian矩阵，θ是深度自编码器的参数集，x_i表示一次训练中编码器的输入，表示解码器还原的输出，t代表训练集，z代表高斯核中的代数式。

上述步骤S9和S12中的相似度比较，目前最成熟的算法是余弦相似度和皮尔逊相似度比较方法。本发明在具体实施例中可以采用余弦相似度和海明距离相似度两种计算方法。假定A和B是两个n维新闻特征向量，A是[a1,a2,...,an]，B是[b1,b2,...,bn]，则A与B的夹角φ的余弦等于：

其中，ai表示集合A中的一个向量，bi表示集合B中的一个向量，n为向量的长度。

余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越接近；越趋近于-1，他们的方向越相反；接近于0，表示两个向量近乎于正交。海明距离相似度比较则通过计算二值化特征之间的海明距离来得到，在用户相似度计算中速度更快。

对上述基于内容与协同过滤相结合的个性化推荐方法进行测试，参见图4、5，推荐系统综合评价指标采用当前主流的精确度Precision(P)和召回率Recall(R)两项指标：

图4、5中，URBC表示本申请推荐方法的曲线，Item Based表示基于协同过滤推荐方法的曲线，SVD表示基于SVD推荐方法的曲线。

经实际测试标明，本申请基于内容与协同过滤相结合的个性化推荐方法与当前较为流行的方法相比，在在精确率和召回率方面都取得了很好的效果。

本申请将文本新闻数据的特征提取出来成为“基于内容的统一特征表示”，统一了新闻特征和用户特征，并将基于内容推荐和协同过滤推荐相结合，提出了一个基于内容与协同过滤相结合的个性化推荐方法，有以下创新：

(1)结合现有推荐算法的特点，设计了一种基于内容与协同过滤相结合的个性化推荐方法，在实现融合媒体新闻个性化推荐的同时，大力提升新闻内容的覆盖率、传播力。

(2)统一了用户特征和新闻特征，即统一了基于内容的推荐和协同过滤推荐两种推荐方法的特征标准，有效提升了混合推荐的效率。

(3)可以在基本没有用户人口统计学数据、不涉及私密数据的情况下，满足融合媒体“以内容为基础，以用户为中心”的需要。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于内容与协同过滤相结合的个性化推荐方法，其特征在于：步骤如下:

S3：搭建一种无监督学习人工神经网络；

S7：统一特征提取器生成各个用户的用户偏好模型；

2.根据权利要求1所述的基于内容与协同过滤相结合的个性化推荐方法，其特征在于：所述无监督学习人工神经网络为无监督深度学习自编码器。

3.根据权利要求2所述的基于内容与协同过滤相结合的个性化推荐方法，其特征在于：所述无监督深度学习自编码器，在训练时通过在输入中加入高斯白噪声，可以具备降噪自编码的特点，并且通过反向传播和随机梯度下降来训练得到神经网络的参数集θ。

4.根据权利要求3所述的基于内容与协同过滤相结合的个性化推荐方法，其特征在于：所述无监督深度学习自编码器的代价函数为：

其中k_σ为高斯核，σ为核的大小，

无监督深度学习自编码器的目标函数为：

其中，x表示编码器的输入，f_θ()表示编码器的输出，ｇ_θ()表示解码器输出；L_MC()代表单个输入的代价函数，λ是收缩自编码器的正则化参数，||||_F是F范数符号,J(x)是编码器Jacobian矩阵，θ是深度自编码器的参数集。

5.根据权利要求1所述的基于内容与协同过滤相结合的个性化推荐方法，其特征在于：

所述S8和S12中的相似度比较采用海明距离相似度比较方法或余弦相似度比较方法。

6.根据权利要求1所述的基于内容与协同过滤相结合的个性化推荐方法，其特征在于：

所述S14中所述基于内容的推荐列表和所述协同过滤推荐列表进行混合，所述混合为采用不同的预设权重和基于时间权的权重进行加权混合、加权平均混合或特征混合来生成混合推荐的Top-N推荐列表。