CN111143667B

CN111143667B - 一种基于lda主题模型的三部图新闻推荐方法

Info

Publication number: CN111143667B
Application number: CN201911236779.6A
Authority: CN
Inventors: 韦世红; 李交泰; 石旭; 强帅
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2023-05-02
Anticipated expiration: 2039-12-05
Also published as: CN111143667A

Abstract

本发明涉及信息检索和数据挖掘领域，特别涉及一种基于LDA主题模型的三部图新闻推荐方法，包括获取用户浏览过的新闻标题和文本并记录点击时间，并对获取的数据进行预处理；使用LDA文档主题建模方法对预处理后的数据进行主题建模得到新闻的主题特征；根据领域方法得到用户物品倒排列表并结合主题特征进一步计算用户间的相似性，最后得到目标用户最近邻用户；将目标用户和最近邻用户和这些用户所浏览过的新闻以及这些新闻所属的主题输入到基于加权的三部图网络结构中得到欲推荐新闻的最终权重，按照该权值由高到低进行TOP‑N推荐；本发明有效利用了新闻的文本数据提提升了推荐精度，还改善了个性化推荐方法的稀疏性问题。

Description

一种基于LDA主题模型的三部图新闻推荐方法

技术领域

本发明涉及信息检索和数据挖掘领域，特别涉及一种基于隐含狄利克雷分布(Latent Dirichlet Allocation，LDA)主题模型的三部图新闻推荐方法。

背景技术

随着移动网络的飞速发展以及智能手机的普及，人们的各种生活习惯也在潜移默化的被改变。曾经新闻信息大多通过看报纸和看电视来获取，这种方式从新闻信息的产生到生产出该条新闻再到发行，最终才能传播到每个人。这中间经历的时间相对比较长，而新闻本身所特有的特点之一就是时效性，如果在一定的时间内没有传播出来，那这些新闻就丧失了价值而变得毫无意义。现如今各类新闻客户端的出现，随时随地浏览新闻已经成为人们的日常活动之一。同时生产新闻的成本和时间都在大幅缩减，每时每刻媒体和个人都能够产生新闻信息数据。伴随着信息时代各式各样的数据信息产量呈几何指数形式增长现象的出现，给互联网用户带来了严重信息过载的问题。同时快节奏的生活方式又导致用户没有时间和精力在海量的信息中挨个寻找自己感兴趣的东西，因此人们想要从海量的新闻数据中找到自己感兴趣的信息已经变得越来越困难，还会出现信息利用率低的现象，造成信息资源的浪费。

为解决此类问题，诸多学者提出了很多不同的解决方法，例如对各类信息进行分门别类，研发设计搜索引擎等等。但是这些方法都存在着诸多的问题，随着互联网产生数据的不断增多，对其进行分类后的类目数量也是极为庞大的，这种情况下再利用分门别类的方式必将导致浏览者很难从中获取自己需要的内容，因此个性化推荐系统应运而生。

个性化推荐系统利用各种方式收集用户的一些历史行为，然后再对这些数据进行分析并对每个用户进行兴趣建模，之后再通过复杂的算法逻辑计算为每个人生成能够满足其兴趣爱好的信息并主动推荐给他们，从而达到个性化推荐的目的。传统推荐系统的做法是通过构建用户与物品之间的二元关系，即用户评分矩阵，矩阵中的每一行表示一个用户向量。通过计算待推荐用户向量与其他用户向量的相似性来找到邻居用户，通过邻居用户对物品的评分得到待推荐用户最可能感兴趣的物品列表。从国内外学者的研究中发现，物品的标签应用到推荐系统中可以提高推荐的精准性，从而从最初的用户-物品二元关系的推荐算法扩展成用户-物品-标签三元关系的推荐算法。

发明内容

为了提高推荐结果的精确度，本发明提出一种基于LDA主题模型的三部图新闻推荐方法，包括：

S1、获取用户浏览过的新闻标题和文本并记录点击时间，并对获取的数据进行预处理；

S2、使用LDA文档主题建模方法对预处理后的数据进行主题建模得到新闻的主题特征；

S3、根据领域方法得到用户物品倒排列表并结合主题特征进一步计算用户间的相似性，最后得到目标用户最近邻用户；

S4、将目标用户和最近邻用户和这些用户所浏览过的新闻以及这些新闻所属的主题输入到基于加权的三部图网络结构中得到欲推荐新闻的最终权重，按照该权值由高到低进行TOP-N推荐。

进一步的，获取主题特征的过程包括：根据每篇新闻的主题分布和每个主题下词的分布，主题概率超过设定阈值时将该主题提取作为该新闻的主题特征，主题概率表示为：

L(φ|θ)＝∑∑log P(d_i,w_j)；

其中，L(φ|θ)为主题概率，φ为主题z_k下的词的分布，θ是文档d_i下主题的分布；P(d_i,w_j)表示的是任意文档d_i生成词w_j的概率。

进一步的，用户间的相似性计算包括：

其中，S_ab表示用户a与用户b之间的相似性；T(a)表示用户a浏览过的主题特征词。

进一步的，利用基于权重三部图网络结构推获得欲推荐给目标用户新闻的最终权重的过程包括以下步骤：

将用户集U＝{u₁，u₂，...，u_n}、物品集I＝{I₁，I₂，...，I_m}、特征集T＝{T₁，T₂，...，T_p}三个数据集作为三部图网络的输入；

根据三个数据集内的节点之间的连接关系，创建三个关系矩阵，即用户-物品关系矩阵A、物品-主题关系矩阵B以及主题-用户关系矩阵C，在三部图中这三个矩阵矩阵记录了各个结点之间的连边关系，是构建三部图模型的关键；

在用户端，根据用户拥有的主题计算用户的权重并对获得的权重进行归一化；

在主题端，分别从用户侧和物品侧考虑用户的主题权重，获得主题端的初始权重；

在物品端，分别从用户侧和主题侧考虑用户的物品权重，获得用户侧的物品权重和主题侧的物品权重；

基于权重的物质扩散，在初始化三部图之后，将三部图分解为物品-用户、物品-主题方向上的两个二部图；

物品的资源值从物品向用户、主题方向扩散，再从用户、主题向物品方向扩散，两个方向的扩散最终都会回到物品上，得到物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值；

根据物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值进行线性合成，获得物品资源值，即欲推荐新闻的最终权重；

按照物品资源值的由高到低进行对相关用户的TOP-N推荐。

本发明考虑到了新闻文本同时可能含有多个类别主题的特性，考虑到了用户-新闻-主题的三元关系，并将基于领域的思想融入三部图推荐算法中，提升了推荐结果的精度。

附图说明

图1为本发明一种基于LDA主题模型的三部图新闻推荐方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于LDA主题模型的三部图新闻推荐方法，如图1，包括以下步骤：

在本实施例中，对新闻文本进行预处理包括去掉那些浏览量极少的用户，并且有些重复的数据也要清理掉。提取用户ID、新闻标题、新闻文本以及点击新闻的的时间。特别的对于新闻文本十分重要，为了提高新闻文本主题提取的精确性要用jieba分词对新闻文本进行分词、去除停用词和标点等预处理，将新闻文本转化为词向量。

使用LDA文档主题建模方法对预处理后的数据进行主题建模得到新闻的主题特征，若主题的概率分布值大于阈值则将其提取出来作为新闻文本的主题特征，包括以下步骤：

(一)获取LDA文档

LDA是在一篇新闻生成过程的基础上进行逆推得到主题分布和词分布的。

LDA文档生成过程表示为：

P(w_j|d_i)＝∑P(z_k|d_i)P(w_j|z_k)；

其中，P(w_j|d_i)表示文档下词的分布，即是LDA文档；P(z_k|d_i)表示的是文档下的主题概率分布；P(w_j|z_k)是主题下词的概率分布。

(二)获取LDA文档的主题概率分布

根据每篇新闻的主题分布和每个主题下词的分布，使用EM算法迭代求文档的主题概率分布，表示为：

L(φ|θ)＝∑∑log P(d_i,w_j)

其中，L(φθ)为主题概率，φ为主题z_k下的词的分布，θ是文档di下主题的分布；P(d_i,w_j)表示的是任意文档d_i生成词w_j的概率。

(三)获取新闻的主题特征

根据获取的主题概率分布，将文档中主题概率分布大于阈值的主题提取出来作为该新闻文本的特征。

根据领域方法得到用户物品倒排列表并结合主题特征进一步计算用户间的相似性，最后得到目标用户最近邻用户，利用领域的思想和新闻主题计算了用户间的相似度，进一步提高了推荐的准确性，最邻用户即为与目标用户相似度大于阈值的用户的集合，用户间的相似性计算包括：

利用基于权重三部图网络结构推荐算法完成对目标用户的推荐包括以下步骤：

根据三个数据集内的节点之间的连接关系，创建三个关系矩阵，即用户-物品关系矩阵A、物品-主题关系矩阵B以及主题-用户关系矩阵C；

按照物品资源值的由高到低进行对相关用户的TOP-N推荐。

在本实施例中，用户-物品关系矩阵A中的元素a_ij表示用户u_i与物品I_j间的连接关系，当a_ij＝1时表示用户u_i选择过物品I_j，否则a_ij＝0；

物品-主题关系矩阵B中的元素β_ij表示物品I_j与主题t_j之间的连接关系，当β_ij＝1时表示用户u_i选择过物品t_j，否则a_ij＝0；

主题-用户关系矩阵C中的元素c_ij表示用户u_i与主题t_j之间的连接关系，c_ij的值为用户u_i对主题t_j的使用次数。

用户端资源初始化，将有最多主题的用户作为基准，用户权重计算公式表示为：

对用户权重进行归一化操作，表示为：

其中，

表示用户u_i的权重；E(u_i)表示用户u_i的主题的集合；E(u_max)表示含有最多主题的用户u_max的主题的集合；

表示用户u_i的权重归一化后的值，将该值作为用户的初始资源；

表示含有最多主题的用户u_max的权重。

主题端资源初始化，将从用户侧和物品侧两个方向来考虑，包括：

(1)用户侧的主题权重

根据用户的初始资源计算用户侧的主题权重

表示为：

其中，

表示含有主题t_i的用户的集合

将有着最多用户所点击的主题作为基准初始化后得到主题在用户侧的初始资源，用户侧的初始资源表示为：

其中，

表示用户侧的主题结点t_i的初始资源值；

是所有用户侧主题结点中初始资源的最大值。

(2)物品侧的主题权重

根据含有主题t_i的物品i_k包含的主题数量计算物品侧的主题权重，表示为：

其中，

表示含有主题t_i的所有物品集；

表示含有主题t_i的物品i_k包含的主题数量，将被最多的用户所含有的主题作为基准进行归一化计算得到物品侧的初始资源值，表示为：

其中，

表示在物品侧的主题结点t_i的初始资源值；

是所有物品侧主题结点中初始资源的最大值

(3)主题端权重

根据前面(1)和(2)，得到主题端的权重，即主题的初始化资源值，表示为：

其中，

为主题用户侧的初始资源；

为主题物品侧的初始资源值；λ₁为主题的权重因子，λ₁∈[0,1]。

物品端资源初始化，将从用户侧和主题侧两个方面来考虑，包括：

(1)用户侧的物品权重

根据用户的初始资源计算用户侧的主题权重

表示为：

其中，

表示含有主题t_i的用户的集合。

其中，

表示在用户侧的物品结点的初始资源值；

在用户侧的物品结点的最大初始资源值表示。

(2)主题侧的物品权重

根据主题的初始资源值计算主题侧的物品权重，表示为：

其中，

表示在主题侧的物品结点ik的初始资源值；

表示在主题侧的物品结点的最大初始资源值。

(3)物品端权重

根据前面(1)和(2)，得到物品端的权重，即物品的初始化资源值，表示为：

其中，

为物品用户侧的物品初始资源；

为物品主题侧的初始资源；λ₂为物品的权重因子，λ₂∈[0,1]。

基于权重的物质扩散，在初始化三部图之后，将三部图分解为“物品-用户”、“物品-主题”方向上的两个二部图。物品的资源值从物品向用户、主题方向扩散，再从用户、主题向物品方向扩散，两个方向的扩散最终都会回到物品上，得到最终的物品资源值。在三部图内运行物质扩散算法实行物品资源的再分配包括：

(1)物品-用户-物品方向的扩散

其中，a_ij为用户-物品关系矩阵A中的元素，表示用户u_i和物品i_k的连接关系；f(U_i)表示物品向用户方向扩散后，用户节点的资源值；k(U_i)表示用户节点u_i和其邻接物品间的边权重总和；c_i物品节点的初始资源值；k(I_i)表示物品节点i_k和其邻接用户间的边权重总和；m为物品的总数；n为用户的总数。

(2)物品-主题-物品方向的扩散

物品-主题-物品方向上的扩散过程与物品-用户-物品方向的扩散过程相同，不同在于，物品节点与主题节点的边权重都为1。表示为：

其中，f(U_i)表示物品向用户方向扩散后，用户节点的资源值；k(T_i)表示的是主题节点与其邻接的物品节点的边权重总和值；c_i物品节点的初始资源值；k(I_i)表示的是物品节点与其邻接的主题节点间的边权重的总和值。

在初始化完物品的资源，设置完节点间的边权重后，通过用户物品、物品标签两个方向的物质扩散后，得到两个方向扩散回来的资源值，最终物品的资源向量由用户向物品扩散后的资源值和主题向物品扩散后物品节点的资源值线性合成，表示为：

f(I_j)＝λf_u(I_j)+(1-λ)f_t(I_j)；

其中，λ为物品资源值权重因子，λ∈[0,1]。

最后按照物品的资源向量；f(I_i)从大到小向目标用户推荐新闻，此处物品的资源向量f(I_i)即为新闻的最终权重。

在本发明中，物品指的是用户所浏览过的新闻文本和标题，主题指的是使用LDA主题模型从新闻文本中提取出的主题。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于LDA主题模型的三部图新闻推荐方法，其特征在于，具体包括以下步骤：

S3、根据领域方法得到用户物品倒排列表并结合主题特征进一步计算用户间的相似性，最后得到目标用户的最近邻用户，其中用户间的相似性计算包括：

其中，S_ab表示用户a与用户b之间的相似性；T(a)表示用户a浏览过的主题特征词；

S4、将目标用户和最近邻用户的数据输入到基于加权的三部图网结构中得到欲推荐给目标用户新闻的最终权重，按照该权重由高到低进行TOP-N推荐，具体包括：

在用户端，根据用户拥有的主题计算用户的权重并对获得的权重进行归一化，包括：

其中，

表示用户u_i的权重归一化后的值；

表示含有最多主题的用户u_max的权重；

在主题端，分别从用户侧和物品侧考虑用户的主题权重，获得主题端的初始权重；主题的初始化资源值表示为：

其中，

为主题用户侧的初始资源；

为主题物品侧的初始资源值；λ₁为主题的权重因子，λ₁∈[0,1]；

在物品端，分别从用户侧和主题侧考虑用户的物品权重，获得用户侧的物品权重和主题侧的物品权重；物品的初始化资源值表示为：

其中，

为物品用户侧的物品初始资源；

为物品主题侧的初始资源；λ₂为物品的权重因子，λ₂∈[0,1]；

物品的资源值从物品向用户、主题方向扩散，再从用户、主题向物品方向扩散，两个方向的扩散最终都会回到物品上，得到物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值；用户向物品扩散后主题节点的资源值f_u(I_j)表示为：

其中，a_ij为用户-物品关系矩阵A中的元素，表示用户u_i和物品i_k的连接关系；f(U_i)表示物品向用户方向扩散后，用户节点的资源值；k(U_i)表示用户节点u_i和其邻接物品间的边权重总和；c_i物品节点的初始资源值；k(I_i)表示物品节点i_k和其邻接用户间的边权重总和；m为物品的总数；n为用户的总数；

主题向物品扩散后物品节点的资源值f_t(I_j)表示为：

其中，k(T_i)表示的是主题节点与其邻接的物品节点的边权重总和值；

根据物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值进行线性合成，获得物品资源值，即欲推荐新闻的最终权重；物品资源值表示为：

f(I_j)＝λf_u(I_j)+(1-λ)f_t(I_j)；

其中，λ为物品资源值权重因子，λ∈[0,1]；

按照物品资源值的由高到低进行对相关用户的TOP-N推荐。

2.根据权利要求1所述的一种基于LDA主题模型的三部图新闻推荐方法，其特征在于，获取主题特征的过程包括：根据每篇新闻的主题分布和每个主题下词的分布，主题概率超过设定阈值时将该主题提取作为该新闻的主题特征，主题概率表示为：

L(φ|θ)＝∑∑logP(d_i,w_j)；