CN106599226A

CN106599226A - 一种内容推荐方法及内容推荐系统

Info

Publication number: CN106599226A
Application number: CN201611177415.1A
Authority: CN
Inventors: 王娜; 王文君; 高睿; 汪景福; 陈昭南
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2017-04-26
Anticipated expiration: 2036-12-19
Also published as: CN106599226B

Abstract

本发明涉及数据分析与处理技术领域，尤其涉及一种用于向目标用户推荐感兴趣内容的内容推荐方法及内容推荐系统。本发明基于自然语言处理中的连续词袋模型对各用户的历史查看内容序列进行学习训练得到连续词袋模型，从而得到每个内容的内容向量，再根据每个内容的内容向量获取目标用户查看过的内容的相似内容，然后计算目标用户对各相似内容的兴趣度，最后提取出目标用户兴趣度最高的预设数量个内容推荐给目标用户。本发明不利用内容和用户的描述信息、属性或标签，不会因内容和用户的信息的缺失导致算法的鲁棒性变差。同时，本发明计算速度远超协同过滤和基于内容的推荐算法。再者，本发明将内容表示成等长的向量，可迎合各种现成的相似度算法。

Description

一种内容推荐方法及内容推荐系统

技术领域

本发明涉及数据分析与处理技术领域，尤其涉及一种用于向目标用户推荐感兴趣内容的内容推荐方法及内容推荐系统。

背景技术

随着人们逐渐步入信息时代，当今世界正处于信息大爆炸的环境下，并且面临着严峻的信息过剩问题。仅在2011年，全球数据量就达到了1.8ZB，相当于全世界每个人产生200GB以上的数据。这种增长趋势仍在加速，据保守预计，接下来几年中，数据将始终保持每年50％的增长速度。如今，各大电商、视频播放等平台用户每天都将产生海量的数据，因此如何有效地利用用户产生的数据是当今互联网企业亟需解决的问题。这时候个性化的推荐系统作为数据挖掘的手段便应运而生了。推荐系统指的是互联网站向用户提供产品信息或建议，让用户发现自己潜在的兴趣和需求并帮助用户选择产品。

传统的相关视频推荐算法有基于视频的协同过滤和基于内容的相关推荐。基于视频的协同过滤使用用户对视频的偏好，发现视频间的相似度，然后根据用户的历史偏好信息将相似视频推荐给用户。基于视频的协同过滤根据用户-视频评分矩阵计算视频间的相似度，从而确定目标视频的邻居视频，再向目标用户推荐与其历史观看的视频相似度高的视频，其中查找用户观看历史视频的邻居视频是协同过滤算法的关键步骤。其优点在于，不依赖用户的属性信息和视频的内容信息，仅仅通过分析大量用户对视频的行为数据，从中找到特定的行为模式，据此来预测用户的兴趣并作出相关推荐。它不需要对视频或者用户进行严格的建模就可以作出令人满意的推荐结果。基于内容的推荐算法是根据视频的描述信息发现视频之间的相关性，这是推荐系统出现之初应用最为广泛的推荐机制，其核心思想在于利用视频的描述信息发现视频之间的相关性，然后基于用户以往的喜好记录推荐给用户相似的视频。其优点在于易于实现，不需要用户数据因此不存在稀疏性和冷启动问题，而且基于视频本身的特征也不会出现过度推荐热门的问题。

基于视频的协同过滤的缺点有：①推荐效果依赖于用户历史偏好数据的多少和准确性；②用户历史和偏好是用稀疏矩阵进行存储的，而且稀疏矩阵上的计算有明显的问题，少部分人的错误偏好对准确度有较大的影响；③由于用户和视频的数量非常大，因此用户-视频矩阵的计算量会非常大，在实时推荐实现时难度也会较大。基于内容的相关推荐的缺点有：①视频的描述信息会有缺失，导致无法提取视频属性；②抽取的视频特征纪要保证准确性又要具有一定的实际意义，否则很难保证推荐结果的相关性。

上述缺陷同样也出现在其他诸如音乐、新闻、商品的推荐过程中。

发明内容

本发明所要解决的技术问题是，提供一种内容推荐方法及内容推荐系统，不使用内容的描述信息或属性，也不使用用户的描述信息或属性，即可实现内容的准确推荐。本发明是这样实现的：

一种内容推荐方法，包括如下步骤：

步骤A：获取所有用户的内容查看历史数据，每个用户的内容查看历史数据包括该用户查看过的所有内容以及各内容的查看时间；

步骤B：按照查看时间先后顺序分别对每个用户查看过的所有内容进行排序，得到每个用户的历史查看内容序列；

步骤C：对每个用户的历史查看内容序列进行连续词袋模型训练，得到连续词袋模型，从而得到每个内容的内容向量；

步骤D：获取目标用户在预设时间窗口内查看过的内容的集合；

步骤E：从所有用户查看过的所有内容中分别提取内容向量与所述集合中的每个内容最相似的第一预设数量个内容；

步骤F：计算目标用户对提取出的所有内容中的每个内容的兴趣度；设目标用户为u，所述集合为M，提取的内容为j，内容向量与内容j最相似的第二预设数量个内容的集合为N，则目标用户u对内容j的兴趣度P_uj的计算方法为：

其中，W_ij表示内容i与内容j的内容向量相似度，P_ui表示目标用户u对内容i的兴趣度；

步骤G：根据目标用户对内容的兴趣度高低从提取出的所有内容中提取出目标用户兴趣度最高的第三预设数量个内容推荐给目标用户。

进一步地，所述内容为网络上的视频、音乐、新闻或商品，所述查看为点击所述内容的链接。

进一步地，所述步骤C包括如下步骤：

步骤C1：建立连续词袋模型的输入矩阵V和输出矩阵U，并对所述输入矩阵V和输出矩阵U进行随机初始化；其中，V∈R^n×|V|，U∈R^|V|×n，n表示向量维度；

步骤C2：从所述每个用户的历史查看内容序列中选取一个内容x^c作为中心内容，并读取中心内容的前后的各m个内容，并对读取出的2m个内容进行独热码编码，得到这2m个内容的独热码；该2m个内容的独热码分别表示如下：

x^(c-m),...,x^(c-1),x^(c+1),...,x^(c+m)；

步骤C3：将这2m个内容的独热码分别乘以所述输入矩阵，得到这2m个内容的输入内容向量；该2m个内容的输入内容向量分别表示如下：

v_c-m＝Vx^(c-m),...v_c-1＝Vx^(c-1),v_c+1＝Vx^(c+1),...,v_c+m＝Vx^(c+m)；v_i表示内容w_i的输入内容向量；

步骤C4：对所述2m个内容的输入内容向量求平均值

步骤C5：根据所述平均值计算得分向量z：

步骤C6：将所述得分向量转换为概率分布

步骤C7：利用交叉熵作为目标函数计算中心内容在输出矩阵U中的内容向量与所述概率分布之间的误差：其中，为步骤C5中得到的概率分布，y为中心内容在输出矩阵U中的内容向量；

步骤C8：根据所述误差得到最终的优化目标函数：

u_i表示内容w_i的输出内容向量；

步骤C9：采用梯度下降法对输出矩阵中的中心内容的内容向量和输入矩阵中的2m个内容对应的内容向量进行更新，得到最终的输入矩阵V和输出矩阵U，从而得到所述连续词袋模型。

一种内容推荐系统，包括：

内容查看历史数据获取模块，用于获取所有用户的内容查看历史数据和目标用户在预设时间窗口内查看过的内容的集合；每个用户的内容查看历史数据包括该用户查看过的所有内容以及各内容的查看时间；

历史查看内容序列生成模块，用于按照查看时间先后顺序分别对每个用户查看过的所有内容进行排序，得到每个用户的历史查看内容序列；

连续词袋模型训练模块，用于对每个用户的历史查看内容序列进行连续词袋模型训练，得到连续词袋模型，从而得到每个内容的内容向量；

相似内容提取模块，用于从所有用户查看过的所有内容中分别提取内容向量与所述集合中的每个内容最相似的第一预设数量个内容；

兴趣度计算模块，用于计算目标用户对提取出的所有内容中的每个内容的兴趣度；设目标用户为u，所述集合为M，提取的内容为j，内容向量与内容j最相似的第二预设数量个内容的集合为N，则目标用户u对内容j的兴趣度P_uj的计算方法为：

推荐内容提取模块，用于根据目标用户对内容的兴趣度高低从提取出的所有内容中提取出目标用户兴趣度最高的第三预设数量个内容推荐给目标用户。

进一步地，所述连续词袋模型训练模块包括：

矩阵建立模块，用于建立连续词袋模型的输入矩阵V和输出矩阵U，并对所述输入矩阵V和输出矩阵U进行随机初始化；其中，V∈R^n×|V|，U∈R^|V|×n，n表示向量维度；

独热码编码模块，用于从所述每个用户的历史查看内容序列中选取一个内容x^c作为中心内容，并读取中心内容的前后的各m个内容，并对读取出的2m个内容进行独热码编码，得到这2m个内容的独热码；该2m个内容的独热码分别表示如下：

x^(c-m),...,x^(c-1),x^(c+1),...,x^(c+m)；

输入内容向量计算模块，用于将这2m个内容的独热码分别乘以所述输入矩阵，得到这2m个内容的输入内容向量；该2m个内容的输入内容向量分别表示如下：

向量平均值计算模块，用于对所述2m个内容的输入内容向量求平均值

得分向量计算模块，用于根据所述平均值计算得分向量z：

概率分布转换模块，用于将所述得分向量转换为概率分布

误差计算模块，用于利用交叉熵作为目标函数计算中心内容在输出矩阵U中的内容向量与所述概率分布之间的误差：其中，为步骤C5中得到的概率分布，y为中心内容在输出矩阵U中的内容向量；

优化目标函数生成模块，用于根据所述误差得到最终的优化目标函数：

u_i表示内容w_i的输出内容向量；

连续词袋模型生成模块，用于采用梯度下降法对输出矩阵中的中心内容的内容向量和输入矩阵中的2m个内容对应的内容向量进行更新，得到最终的输入矩阵V和输出矩阵U，从而得到所述连续词袋模型。

本发明基于自然语言处理中的连续词袋模型对各用户的历史查看内容序列进行学习训练得到连续词袋模型，从而得到每个内容的内容向量，再根据每个内容的内容向量获取目标用户查看过的内容的相似内容，然后计算目标用户对各相似内容的兴趣度，最后提取出目标用户兴趣度最高的预设数量个内容推荐给目标用户。与现有技术相比，本发明不利用内容和用户的描述信息、属性或标签，不会因内容和用户的信息的缺失导致算法的鲁棒性变差。同时，本发明计算速度远超协同过滤和基于内容的推荐算法。再者，本发明将内容表示成等长的向量，可迎合各种现成的相似度算法。

附图说明

图1：本发明实施例1提供的内容推荐方法的总体流程示意图；

图2：施例1提供的内容推荐方法中用户对内容的兴趣度的计算原理举例；

图3：施例1提供的内容推荐方法中连续词袋模型训练的具体流程示意图；

图4：本发明实施例2提供的内容推荐系统的总体组成示意图；

图5：实施例2提供的内容推荐系统中连续词袋模型训练模块的具体组成示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

如图1所示，本发明实施例1提供了一种内容推荐方法，包括如下步骤：

步骤A：获取所有用户的内容查看历史数据，每个用户的内容查看历史数据包括该用户查看过的所有内容以及各内容的查看时间。内容可以为网络上的视频、音乐、新闻或商品，查看为点击内容的链接。当内容为视频或音乐时，点击视频或音乐的链接将播放该视频或音乐，当内容为新闻时，点击新闻链接将呈现出新闻的内容，点击商品链接将呈现出商品信息。内容的查看时间是指查看该内容的时刻。

步骤B：按照查看时间先后顺序分别对每个用户查看过的所有内容进行排序，得到每个用户的历史查看内容序列。

步骤C：对每个用户的历史查看内容序列进行连续词袋模型训练，得到连续词袋模型，从而得到每个内容的内容向量。连续词袋模型训练是整个本发明整个方法流程的最核心的部分，其利用了自然语言处理算法。将本用于进行语言处理领域的自然语言处理算法应用到本发明中。自然语言处理算法通过学习训练语料获取词向量和概率密度函数。词向量是多维实数向量，词向量中包含了自然语言中的语义和语法关系，词向量之间的余弦距离代表了词语之间的相似度。每个历史查看内容序列当做自然语言中的一个句子，序列中的每个内容当成句子中的一个词。使用语言模型对每个用户的历史查看内容序列进行学习训练后将得到每个内容的内容向量，内容向量等效于自然语言处理中获得的词向量。本实施例中采用的语言模型为连续词袋模型，连续词袋模型是一种能够根据一句话中的前后词语预测或产生出中心词语的词袋模型。以句子“The cat jump over the puddle”为例,连续词袋模型能够以{“The”,“cat”,“over”,“the”,“puddle”}为上下文，预测或产生出中心词语“jump”，这种模型称为连续词袋模型。

步骤D：获取目标用户在预设时间窗口内查看过的内容的集合。时间窗口是一个时间段，可根据需要预设。

步骤E：从所有用户查看过的所有内容中分别提取内容向量与集合中的每个内容最相似的第一预设数量个内容。本实施例中以内容向量相似度代表内容相似度，内容向量相似度高，则内容相似度高，内容向量相似度低，则内容相似度低。

步骤F：计算目标用户对提取出的所有内容中的每个内容的兴趣度。设目标用户为u，集合为M，提取的内容为j，内容向量与内容j最相似的第二预设数量个内容的集合为N，则目标用户u对内容j的兴趣度P_uj的计算方法为：

其中，W_ij表示内容i与内容j的内容向量相似度，P_ui表示目标用户u对内容i的兴趣度。

图2以内容为视频举例，假设目标用户在某时间窗口内观看过A视频和B视频，由于目标用户观看过A视频和B视频，可以简单地使用户对A视频和B视频的兴趣度为1。将A视频和B视频输入训练好的视频模型，得到与A视频最相似的3个视频分别是u视频、v视频和x视频，和B视频最相似的3个视频分别是x视频、y视频和z视频。其中，x视频与A视频和B视频均相似。如图2所示，A视频与u视频的相似度为0.7，与v视频的相似度为0.6，与x视频的相似度为0.5；B视频与x视频的相似度为0.4，与y视频的相似度为0.5，与z视频的相似度为0.6。根据上述公式，目标用户对u视频的兴趣度为0.7*1＝0.7，对v视频的兴趣度为0.6*1＝0.6，对x视频的兴趣度为0.5*1+0.4*1＝0.9，对y视频的兴趣度为0.5*1＝0.5，对z视频的兴趣度为0.6*1＝0.6。因此，按照目标用户兴趣度从高到底对上述各视频排序为:x>u>v＝z>y。

如图3所示，步骤C包括如下步骤：

步骤C1：建立连续词袋模型的输入矩阵V和输出矩阵U，并对输入矩阵V和输出矩阵U进行随机初始化。其中，V∈R^n×|V|，U∈R^|V|×n，n表示向量维度。首先，需要建立模型的一些已知参数，把训练集中所有内容进行one-hot(独热)编码，再将内容序列表示为一些one-hot向量作为模型的输入，记为x(c)。模型只有一个输出，即中心内容，记为y。以上文的英文句子为例，y就是我们已知的中心词语“jump”。然后定义模型中的未知参数，建立两个矩阵U、V，V∈R^n×|V|，U∈R^|V|×n。其中n可任意指定，表示内容向量的维度，V表示输入词矩阵。当内容w_i(one_hot向量)作为模型输入的时候，V的第i列就是这个内容w_i对应的n维内容向量，这一列表示为v_i。类似地，U是输出矩阵，当内容w_j(one_hot向量)作为模型输出的时候，U的第i行就是这个内容w_i对应的n维内容向量，这一行表示为u_i。我们对每个内容w_i学习了两个内容向量，一个是输出内容的向量u_i，另一个是输入内容的向量v_i。

步骤C2：从每个用户的历史查看内容序列中选取一个内容x^c作为中心内容，并读取中心内容的前后的各m个内容，并对读取出的2m个内容进行独热码编码，得到这2m个内容的独热码。该2m个内容的独热码分别表示如下：

x^(c-m),...,x^(c-1),x^(c+1),...,x^(c+m)。

步骤C3：将这2m个内容的独热码分别乘以输入矩阵，得到这2m个内容的输入内容向量。该2m个内容的输入内容向量分别表示如下：

v_c-m＝Vx^(c-m),...v_c-1＝Vx^(c-1),v_c+1＝Vx^(c+1),...,v_c+m＝Vx^(c+m)。v_i表示内容w_i的输入内容向量。

步骤C4：对2m个内容的输入内容向量求平均值

步骤C5：根据平均值计算得分向量z：

步骤C6：将得分向量转换为概率分布

步骤C7：利用交叉熵作为目标函数计算中心内容在输出矩阵U中的内容向量与概率分布之间的误差：其中，为步骤C5中得到的概率分布，y为中心内容在输出矩阵U中的内容向量。

步骤C8：根据误差得到最终的优化目标函数：

u_i表示内容w_i的输出内容向量。

步骤C9：采用梯度下降法对输出矩阵中的中心内容的内容向量和输入矩阵中的2m个内容对应的内容向量进行更新，得到最终的输入矩阵V和输出矩阵U，从而得到连续词袋模型。

如图4所示，本发明实施例2提供了一种内容推荐系统，包括内容查看历史数据获取模块1、历史查看内容序列生成模块2、连续词袋模型训练模块3、相似内容提取模块4、兴趣度计算模块5和推荐内容提取模块6。其中：

内容查看历史数据获取模块1用于获取所有用户的内容查看历史数据和目标用户在预设时间窗口内查看过的内容的集合。每个用户的内容查看历史数据包括该用户查看过的所有内容以及各内容的查看时间。

历史查看内容序列生成模块2用于按照查看时间先后顺序分别对每个用户查看过的所有内容进行排序，得到每个用户的历史查看内容序列。

连续词袋模型训练模块3用于对每个用户的历史查看内容序列进行连续词袋模型训练，得到连续词袋模型，从而得到每个内容的内容向量。

相似内容提取模块4用于从所有用户查看过的所有内容中分别提取内容向量与集合中的每个内容最相似的第一预设数量个内容。

兴趣度计算模块5用于计算目标用户对提取出的所有内容中的每个内容的兴趣度。设目标用户为u，集合为M，提取的内容为j，内容向量与内容j最相似的第二预设数量个内容的集合为N，则目标用户u对内容j的兴趣度P_uj的计算方法为：

推荐内容提取模块6用于根据目标用户对内容的兴趣度高低从提取出的所有内容中提取出目标用户兴趣度最高的第三预设数量个内容推荐给目标用户。

内容可为网络上的内容、音乐、新闻或商品，查看为点击内容的链接。

如图5所示，连续词袋模型训练模块3包括矩阵建立模块301、独热码编码模块302、输入内容向量计算模块303、向量平均值计算模块304、得分向量计算模块305、概率分布转换模块306、误差计算模块307、优化目标函数生成模块308、连续词袋模型生成模块309。其中：

矩阵建立模块301用于建立连续词袋模型的输入矩阵V和输出矩阵U，并对输入矩阵V和输出矩阵U进行随机初始化。其中，V∈R^n×|V|，U∈R^|V|×n，n表示向量维度。

独热码编码模块302用于从每个用户的历史查看内容序列中选取一个内容x^c作为中心内容，并读取中心内容的前后的各m个内容，并对读取出的2m个内容进行独热码编码，得到这2m个内容的独热码。该2m个内容的独热码分别表示如下：

x^(c-m),...,x^(c-1),x^(c+1),...,x^(c+m)。

输入内容向量计算模块303用于将这2m个内容的独热码分别乘以输入矩阵，得到这2m个内容的输入内容向量。该2m个内容的输入内容向量分别表示如下：

向量平均值计算模块304用于对2m个内容的输入内容向量求平均值

得分向量计算模块305用于根据平均值计算得分向量z：

概率分布转换模块306用于将得分向量转换为概率分布

误差计算模块307用于利用交叉熵作为目标函数计算中心内容在输出矩阵U中的内容向量与概率分布之间的误差：其中，为步骤C5中得到的概率分布，y为中心内容在输出矩阵U中的内容向量。

优化目标函数生成模块308用于根据误差得到最终的优化目标函数：

u_i表示内容w_i的输出内容向量。

连续词袋模型生成模块309用于采用梯度下降法对输出矩阵中的中心内容的内容向量和输入矩阵中的2m个内容对应的内容向量进行更新，得到最终的输入矩阵V和输出矩阵U，从而得到连续词袋模型。

实施例2提供的内容推荐系统中的各模块与实施例1提供的内容推荐方法中的各步骤相对应，具体工作原理可参照实施例1中对相应步骤的说明。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种内容推荐方法，其特征在于，包括如下步骤：

P_{u j} = \underset{i &Element; M \cap N}{Σ} W_{i j} P_{u i};

2.如权利要求1所述的内容推荐方法，其特征在于，所述内容为网络上的视频、音乐、新闻或商品，所述查看为点击所述内容的链接。

3.如权利要求1所述的内容推荐方法，其特征在于，所述步骤C包括如下步骤：

x^(c-m),...,x^(c-1),x^(c+1),...,x^(c+m)；

步骤C4：对所述2m个内容的输入内容向量求平均值

\hat{v} = \frac{v_{c - m} + v_{c - m + 1} + ... + v_{c - 1} + v_{c + 1} ... + v_{c + m - 1} + v_{c + m}}{2 m};

步骤C5：根据所述平均值计算得分向量z：

步骤C6：将所述得分向量转换为概率分布

步骤C8：根据所述误差得到最终的优化目标函数：

\begin{matrix} M i n i m i z e J = - \log P (w_{c} | w_{c - m}, w_{c - m + 1}, ..., w_{c - 1}, w_{c + 1}, ... w_{c + m - 1}, w_{c + m}) \\ = - \log P (u_{c} | \hat{v}) \\ = - \log \frac{\exp (u_{c}^{T} \hat{v})}{Σ_{j = 1}^{| V |} \exp (u_{j}^{T} \hat{v})} \\ = - u_{c}^{T} \hat{v} + \log Σ_{j = 1}^{| V |} \exp (u_{j}^{T} \hat{v}); \end{matrix}

u_i表示内容w_i的输出内容向量；

4.一种内容推荐系统，其特征在于，包括：

P_{u j} = \underset{i &Element; M \cap N}{Σ} W_{i j} P_{u i};

5.如权利要求4所述的内容推荐系统，其特征在于，所述内容为网络上的视频、音乐、新闻或商品，所述查看为点击所述内容的链接。

6.如权利要求4所述的内容推荐系统，其特征在于，所述连续词袋模型训练模块包括：

x^(c-m),...,x^(c-1),x^(c+1),...,x^(c+m)；

\hat{v} = \frac{v_{c - m} + v_{c - m + 1} + ... + v_{c - 1} + v_{c + 1} ... + v_{c + m - 1} + v_{c + m}}{2 m};

得分向量计算模块，用于根据所述平均值计算得分向量z：

概率分布转换模块，用于将所述得分向量转换为概率分布

\begin{matrix} M i n i m i z e J = - \log P (w_{c} | w_{c - m}, w_{c - m + 1}, ..., w_{c - 1}, w_{c + 1}, ... w_{c + m - 1}, w_{c + m}) \\ = - \log P (u_{c} | \hat{v}) \\ = - \log \frac{\exp (u_{c}^{T} \hat{v})}{Σ_{j = 1}^{| V |} \exp (u_{j}^{T} \hat{v})} \\ = - u_{c}^{T} \hat{v} + \log Σ_{j = 1}^{| V |} \exp (u_{j}^{T} \hat{v}); \end{matrix}

u_i表示内容w_i的输出内容向量；