CN111310029A

CN111310029A - 一种基于用户商品画像和潜在因子特征提取的混合推荐方法

Info

Publication number: CN111310029A
Application number: CN202010065292.2A
Authority: CN
Inventors: 席亮; 刘越
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-19
Anticipated expiration: 2040-01-20
Also published as: CN111310029B

Abstract

本发明提出了一种基于用户商品画像和潜在因子特征提取的混合推荐方法，所述混合推荐方法包括以下步骤：S100通过用户画像和商品本身的信息提取用户和商品的显式特征表示；S200通过把用户和商品映射到潜在空间，得到用户和商品的潜在因子特征表示；S300利用栈式降噪自编码器对显式特征和潜在因子特征进行特征提取，得到鲁棒性更强的低维特征表示。本发明同时考虑到用户和商品的显式特征空间和潜在因子特征空间，并且将两种特征空间综合考虑在内，克服了单一推荐模型的弊端，解决了物品的冷启动问题，同时本发明采用SDAE对高维特征进行提取，有效避免了“维度灾难”问题，由于在训练过程中添加了随机噪声，极大地提高了算法的鲁棒性。

Description

一种基于用户商品画像和潜在因子特征提取的混合推荐方法

技术领域

本发明涉及了对用户以及商品画像中的文本信息进行特征表示和清洗，以及利用对评分矩阵分解的特征提取方法，尤其涉及了一种基于用户商品画像和潜在因子特征提取的混合推荐方法，属于人工智能领域。

背景技术

推荐系统是一种可以预测用户对商品和信息的喜好或评分的模型，是用户从互联网上浩如烟海的信息中发现适合自己信息和商品的重要渠道。利用用户对商品的历史行为(如：购买、浏览、点击、评价等)来挖掘出每个用户的喜好，进而对用户进行个性化推荐。用户对商品的历史行为通常分为两类：一是显式反馈，即用户对商品的评分信息，如豆瓣电影的评分，用户会对电影给出1分～10分不等的评分信息；二是潜在反馈，即用户购买、浏览等信息，潜在反馈虽然不能明确刻画出用户对物品的喜好程度，但能从一定程度上获取用户对商品的喜好程度，用户对物品的行为信息通常可以用(用户，商品，评分)这样的三元组进行表示，构建推荐系统时一般采用这种三元组数据进行数据分析，得到每个用户的兴趣爱好，给用户推荐新的可能感兴趣的商品。

随着网络的快速发展，电子商务和电子交易，各种各样的新娱乐方式的出现，使得推荐系统变得越来越重要，推荐系统中最经典的方法包括协同过滤方法、基于内容的方法和基于知识的方法等。这些方法构成了推荐领域的基本支柱。并且其应用的领域非常多样化，因为它可以使用各种类型的用户偏好数据和用户需求数据来进行推荐，例如以下场景。

电子商务，例如亚马逊，淘宝。商品推荐页主要包括的内容有推荐结果的标题，缩略图以及其他内容属性，并且给出推荐结果的评分和推荐理由。亚马逊的推荐有以下三种：(1)基于用户之前的行为，例如购买过武侠小说，会继续推荐别的武侠小说。

基于用户的好友关系，例如亚马逊拿到用户的Facebook的好友，然后向用户推荐他的好友的购买倾向。

基于物品的相似度，例如购买了该商品的用户还买了哪些商品。

电影和视频推荐，这种和电子商务有所不同，这种用户通常只是想看电影，但是并没有很明确的需求要看哪部电影甚至是哪种类型的电影，从Netflix的推荐理由来看，它们的算法和亚马逊的算法类似，也是基于物品的推荐算法，即给用户推荐和他们曾经喜欢的电影相似的电影。

音乐电台，个性化推荐的成功应用需要两个条件。第一是存在信息过载，因为如果用户可以很容易地从所有物品中找到喜欢的物品，就不需要个性化推荐了。第二是用户大部分时候没有特别明确的需求，因为用户如果有明确的需求，可以直接通过搜索引擎找到感兴趣的物品。Pandora会根据专家标注的基因计算歌曲的相似度，并给用户推荐和他之前喜欢的音乐在基因上相似的其他音乐。Last.fm于2002年在英国成立。Last.fm记录了所有用户的听歌记录以及用户对歌曲的反馈，在这一基础上计算出不同用户在歌曲上的喜好相似度，从而给用户推荐和他有相似听歌爱好的其他用户喜欢的歌曲。

基于用户物品画像的推荐方法与分类和回归建模问题息息相关，当评分为离散值(如：喜欢和不喜欢)时，问题属于文本分类任务。另一方面，当评分为数值时，问题属于回归预测任务。一般公开的用户和商品数据集都包含各自的属性特征，仅利用用户和商品的属性特征构建推荐系统只考虑到用户与商品的显性特征而忽略了用户与物品的交互。

基于潜在因子模型的推荐方法根据(用户，商品，评分)三元组构建评分矩阵，所构建的矩阵一般是极度稀疏的，该模型的目的是根据稀疏的评分矩阵训练出两个矩阵U和V，使U、V两个矩阵的内积能够近似表示评分矩阵。U(或V)的每一列被称为隐分量，而U(或V)的每一行被称为潜在因子，即用户或商品的潜在因子，实际上用户对商品的评分或评价情况取决于用户或商品的潜在因子。这种方法仅从潜在空间对用户和商品建模，忽略了用户以及商品的基本特征。

基于用户画像和潜在因子特征提取的混合推荐方法的基本思想是利用用户数据、商品数据以及用户对物品的交互数据这三个数据源进行综合建模，综合考虑用户商品的基本特征与用户交互行为的潜在因子特征，利用生成模型进行特征提取，最后实现评分预测或分类任务。

相比于传统的推荐方法，如协同过滤方法，这种方法遇到新商品被添加到评分矩阵中这种情况，也就是当出现了一件新的商品时，没有用户对其进行过评价，会因为没有足够的评分数据而无法进行推荐，运用基于用户和商品画像来建立用户与与商品的特征，可以有效解决协同过滤对于新用户和新商品都具有的冷启动问题，同时采用基于通过获取用户和商品潜在因子的方法可已将用户和商品映射到各自的潜在空间中去，通过潜在因子来刻画用户和物品的特征表示，能够从多种潜在空间刻画用户和商品的属性并且克服了基于用户和商品画像的方法中特征稀疏的问题，但也会因为忽略用户和商品的固有特征属性而使得推荐效率下降。

发明内容

本发明的目的是提出一种基于用户商品画像和潜在因子特征提取的混合推荐方法，结合了基于用户物品画像的推荐方法和基于潜在因子模型的推荐方法两者的优点，通过两种方式分别获取用户和商品的显式特征和潜在因子特征，并采用栈式降噪自编码器(Stacked Denoising AutoEncoder)对显式和潜在因子特征进行特征提取，这种特征提取方式除了能保留原始数据的主要特征之外，在训练时还随机加入噪声，提高了算法的鲁棒性，避免了模型的过拟合现象，最后通过全连接神经网络实现分类或回归任务。以解决解决上述问题。

一种基于用户商品画像和潜在因子特征提取的混合推荐方法，所述混合推荐方法包括以下步骤：

S100通过用户画像和商品本身的信息提取用户和商品的显式特征和显式特征表示；

S200通过把用户和商品映射到潜在空间，得到用户和商品的隐式特征表示；

S300利用栈式降噪自编码器对显式特征、显示特征表示和隐式特征进行特征提取，得到鲁棒性更强的低维特征表示。

进一步的，S100包括以下步骤：

S110对于连续型特征，取数值作为特征值；

S120对于单值离散变量，采用One-Hot编码方式得到特征表示；

S130对于多值离散变量或文本型特征，采用如下方法得到向量空间表示：

对数据中的每个离散特征值做如下运算：

其中，n_i,j为每个离散特征在特征语料库中的出现次数，而分母则是在特征语料库库中所有字词的出现次数之和，

对数据中的每个离散特征值做如下运算：

其中，D为特征语料库中的数据总数，|{j:t_i∈d_j}|为包含词语t_i的数据条数，

计算用户与商品的显式特征表示tf-idf：

tfidf＝tf_i,j×idf_i

得到用户与商品的显式特征表示tf-idf。

进一步的，S200包括以下步骤：

S210根据用户评分数据构建用户评分矩阵R_u×i，设置潜在空间维度k，

S220将评分矩阵R_u×i分解为两个低维矩阵，分别为U_m×k和V_n×k，使得：

优化问题表示为：

其中，r_ij为已观测数据，λ为正则化参数，

经过训练得到用户与商品的隐式特征表示。

5、根据权利要求1所述的一种基于用户商品画像和潜在因子特征提取的混合推荐方法，其特征在于，S300包括以下步骤：

S310分别将用户与商品的显式特征与隐式特征做特征组合：

UFeats＝CONCATNATE(Ufeatures,Ufeatures_latent)_ii

VFeats＝CONCATNATE(Vfeatures,Vfeatures_latent)；

其中，U代表用户，V代表商品，Ufeatures为用户的显式特征，Ufeatures_latent为用户的隐式特征，UFeats为用户特征组合，VFeats为商品特征组合；

S320根据稀疏评分矩阵获取已有评价或评分的数据，从UFeats和VFeats中提取数据中用户特征与商品特征，并将用户特征与商品特征做特征组合，构建神经网络输入矩阵：

Features＝CONCATNATE(UFeats∈R,VFeats∈R)；

S330利用栈式降噪自编码器对组合特征进行特征提取，通过加入随机噪声和最小化重构误差来得到Features的低维特征表示；

S340利用深度神经网络模型对重构后得到的低维特征表示进行有监督训练，为避免过拟合加入L2正则化项；

S350选取评分最高的N个商品对用户进行个性化推荐。

本发明的主要优点是：本发明涉及一种基于用户商品画像和潜在因子特征提取的混合推荐方法，同时考虑到用户和商品的显式特征空间和潜在因子特征空间，并且将两种特征空间综合考虑在内，克服了单一推荐模型的弊端，解决了物品的冷启动问题，同时本发明采用栈式降噪自编码器(SDAE)对高维特征进行提取，有效避免了“维度灾难”问题，由于在训练过程中添加了随机噪声，极大地提高了算法的鲁棒性，此外，这种基于用户和商品画像的混合模型还适用于交互推荐，交叉域推荐。

附图说明

图1为本发明的一种基于用户商品画像和潜在因子特征提取的混合推荐方法的框架图；

图2为本发明的一种基于用户商品画像和潜在因子特征提取的混合推荐方法的网络结构图；

图3为利用栈式降噪自编码器进行特征提取的网络结构图；

图4为利用深度神经网络进行有监督训练的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于用户商品画像和潜在因子特征提取的混合推荐方法，所述混合推荐方法包括以下步骤：

具体的，推荐系统的数据集中涉及到很多文本，文字信息，如电影类型，影评等，这些特征需要用NLP领域的方法如词袋模型、下述的tf-idf模型等进行编码获取，获取到的编码即显式特征表示，像用户的薪水、年龄、电影的上映年限等这些特征是数据集中可以直接进行简单处理进行训练的特征为显式特征；矩阵分解可以得到两个矩阵，分别代表用户和商品的特征向量，特征向量即隐式特征表示。所以，可以直接获取的特征称为‘特征’，利用算法得到的低维向量不是‘特征’，而是‘特征表示’，‘特征表示’与‘特征’都是低维向量，而不是参数或公式，两者一同作为特征输入到神经网络中进行训练。

在本部分优选实施例中，S100包括以下步骤：

S110对于连续型特征，取数值作为特征值；

S120对于单值离散变量，采用One-Hot编码方式得到特征表示；

对数据中的每个离散特征值做如下运算：

对数据中的每个离散特征值做如下运算：

计算用户与商品的显式特征表示tf-idf：

tfidf＝tf_i,j×idf_i

得到用户与商品的显式特征表示tf-idf。

在本部分优选实施例中，S200包括以下步骤：

优化问题表示为：

其中，r_ij为已观测数据，λ为正则化参数，

经过训练得到用户与商品的隐式特征表示。

在本部分优选实施例中，S300包括以下步骤：

S310分别将用户与商品的显式特征与隐式特征做特征组合：

UFeats＝CONCATNATE(Ufeatures,Ufeatures_latent)_iii

VFeats＝CONCATNATE(Vfeatures,Vfeatures_latent)；

Features＝CONCATNATE(UFeats∈R,VFeats∈R)；

S350选取评分最高的N个商品对用户进行个性化推荐。

具体的，评分预测问题实质上是稀疏矩阵的补全问题，对目标用户未评过分的商品进行评分预测，得到一个倒排的评分列表进行TopN推荐，选取N个最高评分的商品作为推荐列表，N的取值视情况而定，推荐的数目也不能太过巨大，一般取值为10，具体是以个数N或是某个分数线其中的哪个为推荐标准根据具体的数据集来确定，我做实验使用到的数据集评分预测的结果大多为小数，并列的分数基本没有，所以我采用了topN即选取N个最高的评分进行推荐。

下面给出两个具体实施例：

实施例一：采用Movielens1M大小的数据集来验证本发明提出的方法，实验过程如下：

(1)数据预处理：对数据集中的三个文件进行预处理，数据包含用户数据集，电影数据集和评分数据集。用户数据集包含用户的ID、性别、年龄段、职业等信息。电影数据集包含电影的ID、电影放映时间、电影名、和电影类型。评分数据集包含用户对电影的评分数据。数据处理的方式为：对于用户数据中的性别，年龄段，职业这些离散变量按Step1.2方式进行编码，对于电影数据中的电影名按照Step1.3中的步骤进行特征提取，分别归纳用户与电影处理后的特征表示。对整体特征进行归一化操作。

(2)根据评分数据集构建用户对电影的评分矩阵，按照Step3的方式对稀疏评分矩阵进行分解，得到两个特征矩阵U和V，其中潜在空间维度设置为30。

(3)以用户、电影为单位，将(1)中得到的显式特征和(2)中得到的潜在因子特征表示做特征组合，如Step4。

(4)遍历评分数据集，根据评分数据集中的三元组(用户，电影，评分)分别从(3)中提取对应的特征，将用户和电影的特征进行组合，如Step5。

(5)对(4)中所得到的高维特征矩阵进行特征提取，按Step6训练方式，最小化重构误差，得到低维的特征矩阵。

(6)将低维特征矩阵作为深度神经网络的输入，评分作为有监督学习的标签，输入到深度神经网络。

(7)进行评分预测，根据(6)中训练好的神经网络模型对稀疏矩阵中空白数据进行评分预测。

(8)进行推荐，选取每个用户评分列表中的N个最高评分作为该用户的推荐电影。

此实例采用公开的数据集，采用本发明流程结构，数据集采用交叉验证方式，最终评价指标根均方误差可以控制在0.755内，相比于其他单一模型效率有显著提升。

实施例二：采用网络爬虫爬取到的某投标网站上开发者对各项任务的完成情况，根据本发明方法给各项任务推荐合理的开发者。实验过程如下：

(1)数据预处理：数据集包括开发者信息数据，任务数据以及开发者对任务完成情况得分数据，开发者数据集包括开发者的ID、开发者的技能标签、开发者任务完成情况等信息，任务数据集包含任务ID、任务所涉及到的技能标签、提交时间等信息。得分数据集包含了每个任务不同开发者的得分情况。对数据集进行清洗，筛选有用信息。对不同字段的特征采用Step1的处理方式编码，分别归纳任务与开发者处理后的特征表示。对整体特征进行归一化操作。

(2)根据得分数据集构建任务与开发者的评分矩阵，按照Step3的方式对稀疏评分矩阵进行分解，得到两个特征矩阵U和V，其中潜在空间维度设置为50。

(3)以任务、开发者为单位，将(1)中得到的显式特征和(2)中得到的潜在因子特征表示做特征组合，如Step4。

(4)遍历得分数据集，根据得分数据集中的三元组(任务，开发者，得分)分别从(3)中提取对应的特征，将任务和开发者的特征进行组合，如Step5。

(6)将低维特征矩阵作为深度神经网络的输入，得分作为有监督学习的标签，输入到深度神经网络。

(8)进行推荐，选取每个任务得分列表中的N个最高得分的开发者作为该任务的推荐人选。

(9)采用本发明流程结构，数据集采用交叉验证方式，最终推荐效率相对于单一协同模型，潜在因子模型有显著提高。

通过以上两个实施例说明本发明提出的一种基于用户商品画像和潜在因子特征提取的混合推荐方法可适用于大多数推荐领域评分预测问题，并取得了显著效果。

最后应说明的是：以上实例仅用以说明本发明的技术方法，而非对其限制；尽管参照前述实例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实例技术方案的精神和范围。