CN111400483B

CN111400483B - 基于时间加权的三部图新闻推荐方法

Info

Publication number: CN111400483B
Application number: CN202010185236.2A
Authority: CN
Inventors: 韦世红; 李交泰; 石旭
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2022-06-21
Anticipated expiration: 2040-03-17
Also published as: CN111400483A

Abstract

本发明涉及信息检索和数据挖掘领域，具体为一种基于时间加权的三部图新闻推荐方法，包括：输入获取的用户浏览的新闻数据，根据获取的用户浏览的新闻数据计算优化后的新闻资源值；根据优化后的新闻资源值进行新闻推荐；所述计算优化后的新闻资源值的过程包括：采用热量扩散算法计算新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值，采用时间权重函数对两个资源值进行融合，得到优化后的新闻资源值；本发明在新闻推荐场景下采用时间权重函数优化新闻资源值，解决了三部图技术中因边权影响推荐效果的问题，提高了推荐结果的精度。

Description

基于时间加权的三部图新闻推荐方法

技术领域

本发明涉及信息检索和数据挖掘领域，特别涉及一种基于时间加权的三部图新闻推荐方法。

背景技术

随着移动网络的飞速发展以及智能手机的普及，人们的各种生活习惯也在潜移默化的被改变。曾经新闻信息大多通过看报纸和看电视来获取，这种方式从新闻信息的产生到生产出该条新闻再到发行，最终才能传播到每个人。这中间经历的时间相对比较长，而新闻本身所特有的特点之一就是时效性，如果在一定的时间内没有传播出来，那这些新闻就丧失了价值而变得毫无意义。现如今各类新闻客户端的出现，随时随地浏览新闻已经成为人们的日常活动之一。同时生产新闻的成本和时间都在大幅缩减，每时每刻媒体和个人都能够产生新闻信息数据。伴随着信息时代各式各样的数据信息产量呈几何指数形式增长现象的出现，给互联网用户带来了严重信息过载的问题。同时快节奏的生活方式又导致用户没有时间和精力在海量的信息中挨个寻找自己感兴趣的东西，因此人们想要从海量的新闻数据中找到自己感兴趣的信息已经变得越来越困难，还会出现信息利用率低的现象，造成信息资源的浪费。

为解决此类问题，诸多学者提出了很多不同的解决方法，例如对各类信息进行分门别类，研发设计搜索引擎等等。如专利申请号为CN201010185859.6的《一种基于社会标签的协同过滤方法》公开了一种将三部图建模方法引入到用户-新闻-标签的三元关系的研究当中并对标签进行了一定的扩展和去噪，在一定程度上提高了推荐的精确度。

但是该方法在推荐过程中，未考虑到标签本身的合理性和精确性等问题；同时该专利只考虑的标签的权重，而未确定用户之间、新闻之间的重要性；将所有用户和新闻采用相同的权重进行推荐，会影响推荐的精度从而导致推荐效果不佳。

发明内容

为解决以上现有技术的问题，本发明提出了一种基于时间加权的三部图新闻推荐方法，包括：

输入获取的用户浏览的新闻数据，根据获取的用户浏览的新闻数据计算优化后的新闻资源值；根据优化后的新闻资源值进行新闻推荐；所述用户浏览的新闻数据包括浏览的时间、新闻标题和新闻文本；

所述计算优化后的新闻资源值的过程包括：采用热量扩散算法计算新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值，采用时间权重函数对新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值融合，得到优化后的新闻资源值。

优选的，获取新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值过程包括：

步骤1：获取目标用户浏览的新闻数据和与目标用户邻近用户所浏览的新闻数据；

步骤2：根据目标用户浏览的新闻数据和邻近用户浏览的新闻数据构建三部图网络推荐模型；

步骤3：根据三部图网络推荐模型计算新闻的初始资源；

步骤4：采用基于权重热量传导算法将三部图网络推荐模型分解为“新闻-用户”和“新闻-主题”方向上的两个二部图；

步骤5：将新闻的初始资源输入“新闻-主题”的二部图中，得到新闻向主题传导后的主题结点资源值；

步骤6：将新闻的初始资源输入“新闻-用户”的二部图中，得到主题向新闻传导后新闻结点的资源值。

优选的，获取三部图网络推荐模型的过程包括：

步骤1：将用户集U＝{u₁，u₂，...，u_n}、项目集I＝{I₁，I₂，...，I_m}、特征集T＝{t₁，t₂，....，t_p}输入到三部图网络中；

步骤2：根据三个数据集内的节点之间的连接关系，创建三个关系矩阵A，B，C；

其中，矩阵A是用户-项目关系矩阵，若用户u_i与项目I_j间存在连接关系，即用户选择过该项目，则a_ij＝1；否则为0；

矩阵B是项目-主题关系矩阵，如果项目I_i与主题t_j间存在连接关系，则β_ij＝1；否则为0；

矩阵C是主题-用户关系矩阵，如果用户u_i使用过主题t_j，用c_ij表示用户对该主题使用的次数。

优选的，获取与目标用户邻近用户的过程包括：获取目标用户浏览新闻的主题特征；采用邻域方法对目标用户浏览过的新闻文本进行编号处理，得到目标用户浏览新闻项目倒排列表；根据目标用户浏览新闻项目倒排列表和目标用户浏览新闻的主题特征计算用户间的相似性；根据相似性的大小得到与目标用户最邻近的用户。

优选的，得到与目标用户最邻近用户的步骤包括：

步骤1：找到和目标用户有着相似浏览行为的用户；

步骤2：提取用户所浏览过的新闻主题特征；

步骤3：根据主题特征建立用户-主题倒排列表；

步骤4：使用jaccard公式计算用户间的相似度；

步骤5：按照相似度由高到低取前N个用户作为最近邻用户。

进一步的，计算用户间的相似度的公式为：

优选的，获取获取目标用户浏览新闻的主题特征的过程包括：

步骤1：根据浏览的用户数据获取新闻d的生成词w_j，并求取在新闻d的条件下生成词w_j的概率为P(w_j|d)；

步骤2：根据P(w_j|d)求取任意文本d_i中生成词w_j的概率P(d_i，w_j)；

步骤3：根据P(d_i，w_j)求取含有N个词的新闻生成所有词的概率P(W|d_i)；

步骤4：根据P(d_i，w_j)求取所有语料库生成所有词的概率P(W|D)；

步骤5：使用EM算法优化P(z_k|d_i)和P(w_j|z_k)，得到每篇新闻的主题分布和每个主题下词的分布；

步骤6：对每篇文档在得到其主题分布后取分布概率最大的三个主题作为该新闻的主题特征。

进一步的，EM算法优化的公式为：

优选的，时间权重函数包括用户-新闻侧的时间权重以及新闻-主题侧的时间权重；

用户-新闻侧的时间权重公式为：

新闻-主题侧的时间权重公式为：

优选的，优化后的新闻资源值f_H(I_j)的公式为：

本发明在新闻推荐场景下使用了三部图技术来处理用户-新闻-主题这种三元关系，在进行用户的兴趣漂移时将时间权重函数融入到三部图的边权重中，使得在进行用户新闻推荐时的精度更准确。

附图说明

图1为本发明的新闻推荐方法流程图；

图2为本发明的总体流程图；

图3为本发明的三部图示意图；

图4为本发明的算法流程图；

图5为本发明的基于时间加权的三部图推荐算法流程图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明为一种基于时间加权的三部图新闻推荐方法，如图1所示，包括：

输入获取的用户浏览的新闻数据，根据获取的用户浏览的新闻数据计算优化后的新闻资源值；根据优化后的新闻资源值进行新闻推荐；

所述用户浏览的新闻数据包括浏览的时间、新闻标题和新闻文本；

本法明的最优实施方案如图2所示，包括：

将获取的用户浏览的新闻数据输入到主题模型中，得到新闻的主题特征；所述用户浏览的新闻数据包括浏览的时间、新闻标题和新闻文本；

采用邻域方法对新闻文本进行编号处理，得到用户浏览新闻项目倒排列表；

根据所述用户浏览新闻项目倒排列表和所述新闻的主题特征计算用户间的相似性，得到与目标用户最邻近的用户；

根据目标用户浏览的新闻数据和邻近用户浏览的新闻数据构建三部图网络推荐模型；获取三部图网络推荐模型的初始资源值；

采用基于权重热量传导算法将三部图网络推荐模型分解为“新闻-用户”和“新闻-主题”方向上的两个二部图；将新闻的初始资源输入“新闻-主题”的二部图中，得到新闻向主题传导后的主题结点资源值；将新闻的初始资源输入“新闻-用户”的二部图中，得到主题向新闻传导后新闻结点的资源值；

采用时间权重函数对新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值融合，得到优化后的新闻资源值；

根据优化后的新闻资源值进行新闻推荐。

所述进行预处理包括去掉那些浏览量极少的用户，并且有些重复的数据也要清理掉。提取用户ID、新闻标题、新闻文本以及点击新闻的的时间。特别的对于新闻文本十分重要，为了提高新闻文本主题提取的精确性要用jieba分词对新闻文本进行分词、去除停用词和标点等预处理，将新闻文本转化为词向量。

利用LDA主题模型提取新闻文本主题。包括：只取概率值分布前三的主题作为新闻文本的主题特征。即步骤包括：

P(w_j|d)＝∑P(z_k|d_i)P(w_j|z_k)

因新闻d_i是不确定的，则有P(d_i)表示以一定的概率选择一篇新闻d_i的概率值。

P(d_i，w_j)＝P(d_i)P(w_j|d_i)＝P(d_i)∑P(z_k|d_i)P(w_j|z_k)

P(W|d_i)＝∏P(d_i，w_j)

新闻与新闻之间也是相互独立的，则有P(W|D)的公式为：

P(W|D)＝∏∏P(d_i，w_j)

EM算法优化的公式为：

其中，EM表示对LDA主题模型的两个参数进行优化，LDA表示经典主题模型，W表示所有词的集合，D表示所有文档的集合，z_k表示文档的某个主题，Z是所有文档的主题的集合，

是主题z_k下的词的分布，θ是文档d_i下的主题分布。

如图3所示，利用三部图网络处理用户-新闻-主题三元关系包括：利用领域的思想和新闻主题计算了用户间的相似度，进一步提高了推荐的准确性。

得到与目标用户最邻近用户的步骤包括：

步骤1：找到和目标用户有着相似浏览行为的用户；

步骤2：提取用户所浏览过的新闻主题特征；

步骤3：根据主题特征建立用户-主题倒排列表；

步骤4：使用jaccard公式计算用户间的相似度；

步骤5：按照相似度由高到低取前N个用户作为最近邻用户；

其中，jaccard表示一种相似度计算方法。

计算用户间的相似度的公式为：

其中，T(a)是用户a浏览过的主题特征词，T(b)是用户b浏览过的主题特征词，∩表示交运算，∪表示并运算。

如图4所示，基于权重的三部图网络推荐算法包括：

步骤1：将用户集U＝{u₁，u₂，...，u_n}、项目集I＝{I₁，I₂，...，I_m}、特征集T＝{t₁，t₂，...，t_p}输入到三部图网络中；

步骤2：三个数据集内的节点之间拥有连接关系，根据其连接关系，创建三个关系矩阵A，B，C；

其中，将用户-新闻连边关系矩阵、新闻-主题连边关系矩阵和用户-主题连边关系矩阵输入推荐模型中得到初步散步图模型；再对初步散步图模型中的新闻结点的资源值进行初始化。

步骤3：用户端资源初始化，将有最多主题的用户作为基准，用户权重计算公式如下：

其中E(a)表示用户a的主题词集合，E(max)表示含有最多主题词最多用户的主题词的集合；归一化后得到用户u_i的初始资源。

归一化公式如下：

其中W_u-max是含有最多主题偏好的用户的权重。

步骤4：主题端资源初始化，将从用户侧和新闻侧两个方向来考虑：

(1)用户的主题权重：

其中u_ti表示含有主题t_i的用户，U_T表示用户u所有的主题，W_ui是用户u_i的初始资源值。u-num表示用户u所浏览的具有主题t_i新闻的数量。

(2)新闻的主题权重：

1.主题间关联关系，一条新闻可能会存在多个主题。通过多主题共同标注新闻的次数和多主题共同标注的总数之比表示共现关系，同时体现了主题间的密切度，得到最后多主题关联关系。

主题共现关系计算公式如下：

其中TC表示主题共现率，(i，∑_j＝1t_j)表示新闻i被标注的标签为∑_j＝1t_j，而N(i，∑_j＝1t_j)表示该多主题组合下共同标注的新闻数，而N(∑i，∑_j＝1t_j)表示所有新闻具有的多主题组合共同标注的新闻总数。

除了通过多主题共现率来体现主题间的关系是不够准确的。因此还将考虑到主题间的紧密联系度，主题间关联度计算公式如下：

其中，N(i)表示新闻i具有的主题个数，N(i)越小代表共同标注的主题数越少，则主题间的关系就越密切。

那么综上所述主题端的初始权重为：

其中，λ₁∈[0，1]。

步骤5：新闻端资源初始化，将从用户侧和主题侧两个方面来考虑。

(1)用户侧的新闻权重：

其中，

表示点击了新闻i_k的用户集合，W_ui是用户u_i的初始资源值。将有着被用户最多点击的新闻的权重作为基准，归一化计算后得到用户侧的新闻初始资源，归一化公式如下：

(2)主题侧的新闻权重：

其中，

表示和主题t_i有关的新闻集合，

是主题t_i的初始资源值。将有着包含最多主题的新闻权重作为基准进行归一化计算得到主题侧的初始资源。

归一化公式如下：

那么综上新闻的初始资源值为：

其中λ₂∈[0，1]。

如图5所所示，基于时间加权的三部图推荐算法流过程包括：

步骤1：基于用户兴趣漂移的时间权重，在传统的三部图中的各个节点的交互是等价的，但实际上用户的兴趣是随着时间的迁移而发生变化；用户-新闻-主题的三部图可以看作用户-新闻和新闻-主题两个二部图。因此在用户-新闻的二部图边权重上一如时间权重函数来模拟用户单次访问某新闻的贡献价值，其中用户-新闻侧的时间权重如下：

其中，t为当前时刻，t_u，i是用户浏览新闻i的时刻。a和λ是可调节参数，b＝0.2是衰减函数的最低值。

步骤2：将基于时间权重函数融入到矩阵A中构成新的边权矩阵A_UI：其中矩阵A_UI的元素a_ij公式如下

a_IJ＝a_ij*k_u，i(t)

其中a_ij表示用户u是否访问过新闻i，如果访问过则其值为1，否则为0；k_u，i(t)表示的是用户u浏览新闻i时对推荐的贡献度随时间变化而衰减的值。

步骤3：对于新闻-主题的二部图中，在用户浏览某条新闻时也对新闻文本后隐藏的主题进行了访问，而单次的主题的访问行为对推荐的贡献也是随着时间的流逝而衰减的，所以用户对主题的兴趣是累加的同时单次访问的贡献也是衰减的，这对这些特性我们将从全局来考虑用户对类别的兴趣变化以及其对推荐性能的影响，新闻-主题侧的时间权重函数如下：

其中，t为当前时刻t_u是用户第一次浏览新闻的时刻，t_last是用户最后一次访问主题t_k的时刻，t_first是用户第一次访问主题t_k的时刻。P(t_k)是利用LDA主题模型从新闻文本中提取的关于主题t_k的归一化的概率分布。

该公式能有效的区分用户的近期兴趣、长期兴趣和失效兴趣，首先对同一个用户u来说分母项t_u-t的值是一定的，然后再来看看该公式如何来区分各个不同的用户兴趣：

(1)用户近期兴趣：用户的近期兴趣表现在用户在过去的时间内不曾关注过，但是最近十分感兴趣的新闻主题，因此分母t-t_last的值会很小，而分子t_last-t_first会比分母略大，所以最后的权重会较大，体现了短期兴趣的重要性。

(2)用户长期兴趣：用户的长期兴趣表现在用户无论是在过去还是现在都比较关注感兴趣的新闻主题，因此分子t_last-t_first会很大，而分母t-t_last的值会较小，所以最后权重会很大，体现了长期兴趣的重要性。

(3)用户失效兴趣：分母t-t_last的值会很大，而分子t_last-t_first会很小，最后得到的权重值也会很小，从而剔除失效兴趣带来的负面影响。

步骤4：将用户-新闻矩阵、新闻-主题矩阵、用户-主题矩阵和各个结点初始资源值输入到三部图中构建加权的三部图网络。

优选的，在三部图内运行热量传导算法实行新闻资源的再分配包括：

基于权重的热量传导，在初始化三部图之后，将三部图分解为“新闻-用户”、“新闻-主题”方向上的两个二部图。新闻的资源值从新闻向用户、主题方向传导，再从用户、主题向新闻方向传导，两个方向的传导最终都会回到新闻上，得到最终的新闻资源值。

(1)新闻-用户-新闻方向的

其中，f_H(U_i)表示新闻向用户方向传导后用户结点的资源值，f_u(I_j)表示用户向新闻传导后的资源值，c_i表示新闻结点的初始资源值，a_IJ＝a_ij*k_u，i(t)是基于时间衰减的用户-新闻边权重关系矩阵A_UI中用户u_i和新闻i_k对应的元素，

表示新闻结点i_k与邻接用户间的边权重总和，

表示用户结点u_i与邻接新闻间的边权重总和。

(2)新闻-主题-新闻方向的传导

新闻-主题-新闻方向上的传导过程与新闻-用户-新闻方向的传导过程相同，不同在于，新闻节点与标签节点的边权重都为1。

其中，β_ij是新闻-主题连边关系矩阵B中新闻I_j和主题T_i对应的元素，f_H(T_i)表示新闻向主题传导后主题结点的资源值，f_Ht(I_j)表示主题向新闻传导后新闻结点的资源值，

表示的是新闻结点与其邻接的主题结点间的边权重的总和值；

表示的是主题结点与其邻接的新闻结点的边权重总和值。

在融合了时间权重函数后，新闻-主题方向的资源值为：

新闻资源整合的过程包括：在初始化完新闻的资源，设置完节点间的边权重后，通过用户新闻、新闻标签两个方向的热量传导后，得到两个方向传导回来的资源值，最终新闻的资源向量f(I_j)由者两个资源值的线性组合生成，生成公式如下：

f(I_j)＝λf_u(I_j)+(1-λ)f_t(I_j) λ∈[0，1]

其中，λ表示调和参数，f_Hu(I_j)表示新闻向主题传导后的主题结点资源值，f_Ht(I_j)表示主题向新闻传导后新闻结点的资源值，I_j表示用户浏览的新闻的项目，

表示新闻-主题侧的时间权重。

按照优化后的新闻资源值的由高到低进行对相关用户进行新闻资源值的TOP-N推荐。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时间加权的三部图新闻推荐方法，其特征在于，包括：

所述计算优化后的新闻资源值的过程包括：采用热量扩散算法计算新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值，采用时间权重函数对新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值融合，得到优化后的新闻资源值；

所述时间权重函数包括用户-新闻侧的时间权重以及新闻-主题侧的时间权重；

用户-新闻侧的时间权重公式为：

新闻-主题侧的时间权重公式为：

其中，a和λ为可调节参数，t为当前时刻，t_u,i是用户浏览新闻i的时刻，b表述衰减函数，t_last是用户最后一次访问主题t_k的时刻，t_first是用户第一次访问主题t_k的时刻，P(t_k)是利用LDA主题模型从新闻文本中提取的关于主题t_k的归一化的概率分布，LDA表示经典主题模型；

优化后的新闻资源值f_H(I_j)的公式为：

表示新闻-主题侧的时间权重。

2.根据权利要求1所述的一种基于时间加权的三部图新闻推荐方法，其特征在于，获取新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值过程包括：

步骤3：根据三部图网络推荐模型计算新闻的初始资源；

3.根据权利要求2所述的一种基于时间加权的三部图新闻推荐方法，其特征在于，获取三部图网络推荐模型的过程包括：

步骤1：将用户集U＝{u₁,u₂,…,u_n}、项目集I＝{I₁,I₂,…,I_m}、特征集T＝{t₁,t₂,…,t_p}输入到三部图网络中；

4.根据权利要求2所述的一种基于时间加权的三部图新闻推荐方法，其特征在于，获取与目标用户邻近用户的过程包括：

获取目标用户浏览新闻的主题特征；采用邻域方法对目标用户浏览过的新闻文本进行编号处理，得到目标用户浏览新闻项目倒排列表；根据目标用户浏览新闻项目倒排列表和目标用户浏览新闻的主题特征计算用户间的相似性；根据相似性的大小得到与目标用户最邻近的用户。

5.根据权利要求4所述的一种基于时间加权的三部图新闻推荐方法，其特征在于，所述得到与目标用户最邻近用户的步骤包括：

步骤1：找到和目标用户有着相似浏览行为的用户；

步骤2：提取用户所浏览过的新闻主题特征；

步骤3：根据主题特征建立用户—主题倒排列表；

步骤4：使用jaccard公式计算用户间的相似度；

步骤5：按照相似度由高到低取前N个用户作为最近邻用户；

其中，jaccard表示一种相似度计算方法。

6.根据权利要求5所述的一种基于时间加权的三部图新闻推荐方法，其特征在于，所述计算用户间的相似度的公式为：

7.根据权利要求4所述的一种基于时间加权的三部图新闻推荐方法，其特征在于，所述获取目标用户浏览新闻的主题特征的过程包括：

步骤2：根据P(w_j|d)求取任意文本d_i中生成词w_j的概率P(d_i,w_j)；

步骤3：根据P(d_i,w_j)求取含有N个词的新闻生成所有词的概率P(W|d_i)；

步骤4：根据P(d_i,w_j)求取所有语料库生成所有词的概率P(W|D)；

步骤6：对每篇文档在得到其主题分布后取分布概率最大的三个主题作为该新闻的主题特征；

其中，EM表示对LDA主题模型的两个参数进行优化，W表示所有词的集合，D表示所有文档的集合，z_k表示文档的某个主题。

8.根据权利要求7所述的一种基于时间加权的三部图新闻推荐方法，其特征在于，EM算法优化的公式为：

其中，

表示主题z_k下的词的分布，θ表示文档d_i下的主题分布。