CN111400483B - 基于时间加权的三部图新闻推荐方法 - Google Patents

基于时间加权的三部图新闻推荐方法 Download PDF

Info

Publication number
CN111400483B
CN111400483B CN202010185236.2A CN202010185236A CN111400483B CN 111400483 B CN111400483 B CN 111400483B CN 202010185236 A CN202010185236 A CN 202010185236A CN 111400483 B CN111400483 B CN 111400483B
Authority
CN
China
Prior art keywords
news
user
subject
time
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010185236.2A
Other languages
English (en)
Other versions
CN111400483A (zh
Inventor
韦世红
李交泰
石旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010185236.2A priority Critical patent/CN111400483B/zh
Publication of CN111400483A publication Critical patent/CN111400483A/zh
Application granted granted Critical
Publication of CN111400483B publication Critical patent/CN111400483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息检索和数据挖掘领域,具体为一种基于时间加权的三部图新闻推荐方法,包括:输入获取的用户浏览的新闻数据,根据获取的用户浏览的新闻数据计算优化后的新闻资源值;根据优化后的新闻资源值进行新闻推荐;所述计算优化后的新闻资源值的过程包括:采用热量扩散算法计算新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值,采用时间权重函数对两个资源值进行融合,得到优化后的新闻资源值;本发明在新闻推荐场景下采用时间权重函数优化新闻资源值,解决了三部图技术中因边权影响推荐效果的问题,提高了推荐结果的精度。

Description

基于时间加权的三部图新闻推荐方法
技术领域
本发明涉及信息检索和数据挖掘领域,特别涉及一种基于时间加权的三部图新闻推荐方法。
背景技术
随着移动网络的飞速发展以及智能手机的普及,人们的各种生活习惯也在潜移默化的被改变。曾经新闻信息大多通过看报纸和看电视来获取,这种方式从新闻信息的产生到生产出该条新闻再到发行,最终才能传播到每个人。这中间经历的时间相对比较长,而新闻本身所特有的特点之一就是时效性,如果在一定的时间内没有传播出来,那这些新闻就丧失了价值而变得毫无意义。现如今各类新闻客户端的出现,随时随地浏览新闻已经成为人们的日常活动之一。同时生产新闻的成本和时间都在大幅缩减,每时每刻媒体和个人都能够产生新闻信息数据。伴随着信息时代各式各样的数据信息产量呈几何指数形式增长现象的出现,给互联网用户带来了严重信息过载的问题。同时快节奏的生活方式又导致用户没有时间和精力在海量的信息中挨个寻找自己感兴趣的东西,因此人们想要从海量的新闻数据中找到自己感兴趣的信息已经变得越来越困难,还会出现信息利用率低的现象,造成信息资源的浪费。
为解决此类问题,诸多学者提出了很多不同的解决方法,例如对各类信息进行分门别类,研发设计搜索引擎等等。如专利申请号为CN201010185859.6的《一种基于社会标签的协同过滤方法》公开了一种将三部图建模方法引入到用户-新闻-标签的三元关系的研究当中并对标签进行了一定的扩展和去噪,在一定程度上提高了推荐的精确度。
但是该方法在推荐过程中,未考虑到标签本身的合理性和精确性等问题;同时该专利只考虑的标签的权重,而未确定用户之间、新闻之间的重要性;将所有用户和新闻采用相同的权重进行推荐,会影响推荐的精度从而导致推荐效果不佳。
发明内容
为解决以上现有技术的问题,本发明提出了一种基于时间加权的三部图新闻推荐方法,包括:
输入获取的用户浏览的新闻数据,根据获取的用户浏览的新闻数据计算优化后的新闻资源值;根据优化后的新闻资源值进行新闻推荐;所述用户浏览的新闻数据包括浏览的时间、新闻标题和新闻文本;
所述计算优化后的新闻资源值的过程包括:采用热量扩散算法计算新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值,采用时间权重函数对新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值融合,得到优化后的新闻资源值。
优选的,获取新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值过程包括:
步骤1:获取目标用户浏览的新闻数据和与目标用户邻近用户所浏览的新闻数据;
步骤2:根据目标用户浏览的新闻数据和邻近用户浏览的新闻数据构建三部图网络推荐模型;
步骤3:根据三部图网络推荐模型计算新闻的初始资源;
步骤4:采用基于权重热量传导算法将三部图网络推荐模型分解为“新闻-用户”和“新闻-主题”方向上的两个二部图;
步骤5:将新闻的初始资源输入“新闻-主题”的二部图中,得到新闻向主题传导后的主题结点资源值;
步骤6:将新闻的初始资源输入“新闻-用户”的二部图中,得到主题向新闻传导后新闻结点的资源值。
优选的,获取三部图网络推荐模型的过程包括:
步骤1:将用户集U={u1,u2,...,un}、项目集I={I1,I2,...,Im}、特征集T={t1,t2,....,tp}输入到三部图网络中;
步骤2:根据三个数据集内的节点之间的连接关系,创建三个关系矩阵A,B,C;
其中,矩阵A是用户-项目关系矩阵,若用户ui与项目Ij间存在连接关系,即用户选择过该项目,则aij=1;否则为0;
矩阵B是项目-主题关系矩阵,如果项目Ii与主题tj间存在连接关系,则βij=1;否则为0;
矩阵C是主题-用户关系矩阵,如果用户ui使用过主题tj,用cij表示用户对该主题使用的次数。
优选的,获取与目标用户邻近用户的过程包括:获取目标用户浏览新闻的主题特征;采用邻域方法对目标用户浏览过的新闻文本进行编号处理,得到目标用户浏览新闻项目倒排列表;根据目标用户浏览新闻项目倒排列表和目标用户浏览新闻的主题特征计算用户间的相似性;根据相似性的大小得到与目标用户最邻近的用户。
优选的,得到与目标用户最邻近用户的步骤包括:
步骤1:找到和目标用户有着相似浏览行为的用户;
步骤2:提取用户所浏览过的新闻主题特征;
步骤3:根据主题特征建立用户-主题倒排列表;
步骤4:使用jaccard公式计算用户间的相似度;
步骤5:按照相似度由高到低取前N个用户作为最近邻用户。
进一步的,计算用户间的相似度的公式为:
Figure BDA0002413951180000031
优选的,获取获取目标用户浏览新闻的主题特征的过程包括:
步骤1:根据浏览的用户数据获取新闻d的生成词wj,并求取在新闻d的条件下生成词wj的概率为P(wj|d);
步骤2:根据P(wj|d)求取任意文本di中生成词wj的概率P(di,wj);
步骤3:根据P(di,wj)求取含有N个词的新闻生成所有词的概率P(W|di);
步骤4:根据P(di,wj)求取所有语料库生成所有词的概率P(W|D);
步骤5:使用EM算法优化P(zk|di)和P(wj|zk),得到每篇新闻的主题分布和每个主题下词的分布;
步骤6:对每篇文档在得到其主题分布后取分布概率最大的三个主题作为该新闻的主题特征。
进一步的,EM算法优化的公式为:
Figure BDA0002413951180000041
优选的,时间权重函数包括用户-新闻侧的时间权重以及新闻-主题侧的时间权重;
用户-新闻侧的时间权重公式为:
Figure BDA0002413951180000042
新闻-主题侧的时间权重公式为:
Figure BDA0002413951180000043
优选的,优化后的新闻资源值fH(Ij)的公式为:
Figure BDA0002413951180000044
本发明在新闻推荐场景下使用了三部图技术来处理用户-新闻-主题这种三元关系,在进行用户的兴趣漂移时将时间权重函数融入到三部图的边权重中,使得在进行用户新闻推荐时的精度更准确。
附图说明
图1为本发明的新闻推荐方法流程图;
图2为本发明的总体流程图;
图3为本发明的三部图示意图;
图4为本发明的算法流程图;
图5为本发明的基于时间加权的三部图推荐算法流程图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明为一种基于时间加权的三部图新闻推荐方法,如图1所示,包括:
输入获取的用户浏览的新闻数据,根据获取的用户浏览的新闻数据计算优化后的新闻资源值;根据优化后的新闻资源值进行新闻推荐;
所述用户浏览的新闻数据包括浏览的时间、新闻标题和新闻文本;
所述计算优化后的新闻资源值的过程包括:采用热量扩散算法计算新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值,采用时间权重函数对新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值融合,得到优化后的新闻资源值。
本法明的最优实施方案如图2所示,包括:
将获取的用户浏览的新闻数据输入到主题模型中,得到新闻的主题特征;所述用户浏览的新闻数据包括浏览的时间、新闻标题和新闻文本;
采用邻域方法对新闻文本进行编号处理,得到用户浏览新闻项目倒排列表;
根据所述用户浏览新闻项目倒排列表和所述新闻的主题特征计算用户间的相似性,得到与目标用户最邻近的用户;
根据目标用户浏览的新闻数据和邻近用户浏览的新闻数据构建三部图网络推荐模型;获取三部图网络推荐模型的初始资源值;
采用基于权重热量传导算法将三部图网络推荐模型分解为“新闻-用户”和“新闻-主题”方向上的两个二部图;将新闻的初始资源输入“新闻-主题”的二部图中,得到新闻向主题传导后的主题结点资源值;将新闻的初始资源输入“新闻-用户”的二部图中,得到主题向新闻传导后新闻结点的资源值;
采用时间权重函数对新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值融合,得到优化后的新闻资源值;
根据优化后的新闻资源值进行新闻推荐。
所述进行预处理包括去掉那些浏览量极少的用户,并且有些重复的数据也要清理掉。提取用户ID、新闻标题、新闻文本以及点击新闻的的时间。特别的对于新闻文本十分重要,为了提高新闻文本主题提取的精确性要用jieba分词对新闻文本进行分词、去除停用词和标点等预处理,将新闻文本转化为词向量。
利用LDA主题模型提取新闻文本主题。包括:只取概率值分布前三的主题作为新闻文本的主题特征。即步骤包括:
步骤1:根据浏览的用户数据获取新闻d的生成词wj,并求取在新闻d的条件下生成词wj的概率为P(wj|d);
P(wj|d)=∑P(zk|di)P(wj|zk)
因新闻di是不确定的,则有P(di)表示以一定的概率选择一篇新闻di的概率值。
步骤2:根据P(wj|d)求取任意文本di中生成词wj的概率P(di,wj);
P(di,wj)=P(di)P(wj|di)=P(di)∑P(zk|di)P(wj|zk)
步骤3:根据P(di,wj)求取含有N个词的新闻生成所有词的概率P(W|di);
P(W|di)=∏P(di,wj)
步骤4:根据P(di,wj)求取所有语料库生成所有词的概率P(W|D);
新闻与新闻之间也是相互独立的,则有P(W|D)的公式为:
P(W|D)=∏∏P(di,wj)
步骤5:使用EM算法优化P(zk|di)和P(wj|zk),得到每篇新闻的主题分布和每个主题下词的分布;
EM算法优化的公式为:
Figure BDA0002413951180000061
其中,EM表示对LDA主题模型的两个参数进行优化,LDA表示经典主题模型,W表示所有词的集合,D表示所有文档的集合,zk表示文档的某个主题,Z是所有文档的主题的集合,
Figure BDA0002413951180000071
是主题zk下的词的分布,θ是文档di下的主题分布。
步骤6:对每篇文档在得到其主题分布后取分布概率最大的三个主题作为该新闻的主题特征。
如图3所示,利用三部图网络处理用户-新闻-主题三元关系包括:利用领域的思想和新闻主题计算了用户间的相似度,进一步提高了推荐的准确性。
得到与目标用户最邻近用户的步骤包括:
步骤1:找到和目标用户有着相似浏览行为的用户;
步骤2:提取用户所浏览过的新闻主题特征;
步骤3:根据主题特征建立用户-主题倒排列表;
步骤4:使用jaccard公式计算用户间的相似度;
步骤5:按照相似度由高到低取前N个用户作为最近邻用户;
其中,jaccard表示一种相似度计算方法。
计算用户间的相似度的公式为:
Figure BDA0002413951180000072
其中,T(a)是用户a浏览过的主题特征词,T(b)是用户b浏览过的主题特征词,∩表示交运算,∪表示并运算。
如图4所示,基于权重的三部图网络推荐算法包括:
步骤1:将用户集U={u1,u2,...,un}、项目集I={I1,I2,...,Im}、特征集T={t1,t2,...,tp}输入到三部图网络中;
步骤2:三个数据集内的节点之间拥有连接关系,根据其连接关系,创建三个关系矩阵A,B,C;
其中,矩阵A是用户-项目关系矩阵,若用户ui与项目Ij间存在连接关系,即用户选择过该项目,则aij=1;否则为0;
矩阵B是项目-主题关系矩阵,如果项目Ii与主题tj间存在连接关系,则βij=1;否则为0;
矩阵C是主题-用户关系矩阵,如果用户ui使用过主题tj,用cij表示用户对该主题使用的次数。
其中,将用户-新闻连边关系矩阵、新闻-主题连边关系矩阵和用户-主题连边关系矩阵输入推荐模型中得到初步散步图模型;再对初步散步图模型中的新闻结点的资源值进行初始化。
步骤3:用户端资源初始化,将有最多主题的用户作为基准,用户权重计算公式如下:
Figure BDA0002413951180000081
其中E(a)表示用户a的主题词集合,E(max)表示含有最多主题词最多用户的主题词的集合;归一化后得到用户ui的初始资源。
归一化公式如下:
Figure BDA0002413951180000082
其中Wu-max是含有最多主题偏好的用户的权重。
步骤4:主题端资源初始化,将从用户侧和新闻侧两个方向来考虑:
(1)用户的主题权重:
Figure BDA0002413951180000083
其中uti表示含有主题ti的用户,UT表示用户u所有的主题,Wui是用户ui的初始资源值。u-num表示用户u所浏览的具有主题ti新闻的数量。
(2)新闻的主题权重:
1.主题间关联关系,一条新闻可能会存在多个主题。通过多主题共同标注新闻的次数和多主题共同标注的总数之比表示共现关系,同时体现了主题间的密切度,得到最后多主题关联关系。
主题共现关系计算公式如下:
Figure BDA0002413951180000091
其中TC表示主题共现率,(i,∑j=1tj)表示新闻i被标注的标签为∑j=1tj,而N(i,∑j=1tj)表示该多主题组合下共同标注的新闻数,而N(∑i,∑j=1tj)表示所有新闻具有的多主题组合共同标注的新闻总数。
除了通过多主题共现率来体现主题间的关系是不够准确的。因此还将考虑到主题间的紧密联系度,主题间关联度计算公式如下:
Figure BDA0002413951180000092
其中,N(i)表示新闻i具有的主题个数,N(i)越小代表共同标注的主题数越少,则主题间的关系就越密切。
那么综上所述主题端的初始权重为:
Figure BDA0002413951180000093
其中,λ1∈[0,1]。
步骤5:新闻端资源初始化,将从用户侧和主题侧两个方面来考虑。
(1)用户侧的新闻权重:
Figure BDA0002413951180000094
其中,
Figure BDA0002413951180000099
表示点击了新闻ik的用户集合,Wui是用户ui的初始资源值。将有着被用户最多点击的新闻的权重作为基准,归一化计算后得到用户侧的新闻初始资源,归一化公式如下:
Figure BDA0002413951180000095
(2)主题侧的新闻权重:
Figure BDA0002413951180000096
其中,
Figure BDA0002413951180000097
表示和主题ti有关的新闻集合,
Figure BDA0002413951180000098
是主题ti的初始资源值。将有着包含最多主题的新闻权重作为基准进行归一化计算得到主题侧的初始资源。
归一化公式如下:
Figure BDA0002413951180000101
那么综上新闻的初始资源值为:
Figure BDA0002413951180000102
其中λ2∈[0,1]。
如图5所所示,基于时间加权的三部图推荐算法流过程包括:
步骤1:基于用户兴趣漂移的时间权重,在传统的三部图中的各个节点的交互是等价的,但实际上用户的兴趣是随着时间的迁移而发生变化;用户-新闻-主题的三部图可以看作用户-新闻和新闻-主题两个二部图。因此在用户-新闻的二部图边权重上一如时间权重函数来模拟用户单次访问某新闻的贡献价值,其中用户-新闻侧的时间权重如下:
Figure BDA0002413951180000103
其中,t为当前时刻,tu,i是用户浏览新闻i的时刻。a和λ是可调节参数,b=0.2是衰减函数的最低值。
步骤2:将基于时间权重函数融入到矩阵A中构成新的边权矩阵AUI:其中矩阵AUI的元素aij公式如下
aIJ=aij*ku,i(t)
其中aij表示用户u是否访问过新闻i,如果访问过则其值为1,否则为0;ku,i(t)表示的是用户u浏览新闻i时对推荐的贡献度随时间变化而衰减的值。
步骤3:对于新闻-主题的二部图中,在用户浏览某条新闻时也对新闻文本后隐藏的主题进行了访问,而单次的主题的访问行为对推荐的贡献也是随着时间的流逝而衰减的,所以用户对主题的兴趣是累加的同时单次访问的贡献也是衰减的,这对这些特性我们将从全局来考虑用户对类别的兴趣变化以及其对推荐性能的影响,新闻-主题侧的时间权重函数如下:
Figure BDA0002413951180000111
其中,t为当前时刻tu是用户第一次浏览新闻的时刻,tlast是用户最后一次访问主题tk的时刻,tfirst是用户第一次访问主题tk的时刻。P(tk)是利用LDA主题模型从新闻文本中提取的关于主题tk的归一化的概率分布。
该公式能有效的区分用户的近期兴趣、长期兴趣和失效兴趣,首先对同一个用户u来说分母项tu-t的值是一定的,然后再来看看该公式如何来区分各个不同的用户兴趣:
(1)用户近期兴趣:用户的近期兴趣表现在用户在过去的时间内不曾关注过,但是最近十分感兴趣的新闻主题,因此分母t-tlast的值会很小,而分子tlast-tfirst会比分母略大,所以最后的权重会较大,体现了短期兴趣的重要性。
(2)用户长期兴趣:用户的长期兴趣表现在用户无论是在过去还是现在都比较关注感兴趣的新闻主题,因此分子tlast-tfirst会很大,而分母t-tlast的值会较小,所以最后权重会很大,体现了长期兴趣的重要性。
(3)用户失效兴趣:分母t-tlast的值会很大,而分子tlast-tfirst会很小,最后得到的权重值也会很小,从而剔除失效兴趣带来的负面影响。
步骤4:将用户-新闻矩阵、新闻-主题矩阵、用户-主题矩阵和各个结点初始资源值输入到三部图中构建加权的三部图网络。
优选的,在三部图内运行热量传导算法实行新闻资源的再分配包括:
基于权重的热量传导,在初始化三部图之后,将三部图分解为“新闻-用户”、“新闻-主题”方向上的两个二部图。新闻的资源值从新闻向用户、主题方向传导,再从用户、主题向新闻方向传导,两个方向的传导最终都会回到新闻上,得到最终的新闻资源值。
(1)新闻-用户-新闻方向的
Figure BDA0002413951180000112
Figure BDA0002413951180000121
其中,fH(Ui)表示新闻向用户方向传导后用户结点的资源值,fu(Ij)表示用户向新闻传导后的资源值,ci表示新闻结点的初始资源值,aIJ=aij*ku,i(t)是基于时间衰减的用户-新闻边权重关系矩阵AUI中用户ui和新闻ik对应的元素,
Figure BDA0002413951180000122
表示新闻结点ik与邻接用户间的边权重总和,
Figure BDA0002413951180000123
表示用户结点ui与邻接新闻间的边权重总和。
(2)新闻-主题-新闻方向的传导
新闻-主题-新闻方向上的传导过程与新闻-用户-新闻方向的传导过程相同,不同在于,新闻节点与标签节点的边权重都为1。
Figure BDA0002413951180000124
Figure BDA0002413951180000125
其中,βij是新闻-主题连边关系矩阵B中新闻Ij和主题Ti对应的元素,fH(Ti)表示新闻向主题传导后主题结点的资源值,fHt(Ij)表示主题向新闻传导后新闻结点的资源值,
Figure BDA0002413951180000126
表示的是新闻结点与其邻接的主题结点间的边权重的总和值;
Figure BDA0002413951180000127
表示的是主题结点与其邻接的新闻结点的边权重总和值。
在融合了时间权重函数后,新闻-主题方向的资源值为:
Figure BDA0002413951180000128
新闻资源整合的过程包括:在初始化完新闻的资源,设置完节点间的边权重后,通过用户新闻、新闻标签两个方向的热量传导后,得到两个方向传导回来的资源值,最终新闻的资源向量f(Ij)由者两个资源值的线性组合生成,生成公式如下:
f(Ij)=λfu(Ij)+(1-λ)ft(Ij) λ∈[0,1]
其中,λ表示调和参数,fHu(Ij)表示新闻向主题传导后的主题结点资源值,fHt(Ij)表示主题向新闻传导后新闻结点的资源值,Ij表示用户浏览的新闻的项目,
Figure BDA0002413951180000131
表示新闻-主题侧的时间权重。
按照优化后的新闻资源值的由高到低进行对相关用户进行新闻资源值的TOP-N推荐。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于时间加权的三部图新闻推荐方法,其特征在于,包括:
输入获取的用户浏览的新闻数据,根据获取的用户浏览的新闻数据计算优化后的新闻资源值;根据优化后的新闻资源值进行新闻推荐;
所述用户浏览的新闻数据包括浏览的时间、新闻标题和新闻文本;
所述计算优化后的新闻资源值的过程包括:采用热量扩散算法计算新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值,采用时间权重函数对新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值融合,得到优化后的新闻资源值;
所述时间权重函数包括用户-新闻侧的时间权重以及新闻-主题侧的时间权重;
用户-新闻侧的时间权重公式为:
Figure FDA0003620334840000011
新闻-主题侧的时间权重公式为:
Figure FDA0003620334840000012
其中,a和λ为可调节参数,t为当前时刻,tu,i是用户浏览新闻i的时刻,b表述衰减函数,tlast是用户最后一次访问主题tk的时刻,tfirst是用户第一次访问主题tk的时刻,P(tk)是利用LDA主题模型从新闻文本中提取的关于主题tk的归一化的概率分布,LDA表示经典主题模型;
优化后的新闻资源值fH(Ij)的公式为:
Figure FDA0003620334840000013
其中,λ表示调和参数,fHu(Ij)表示新闻向主题传导后的主题结点资源值,fHt(Ij)表示主题向新闻传导后新闻结点的资源值,Ij表示用户浏览的新闻的项目,
Figure FDA0003620334840000014
表示新闻-主题侧的时间权重。
2.根据权利要求1所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,获取新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值过程包括:
步骤1:获取目标用户浏览的新闻数据和与目标用户邻近用户所浏览的新闻数据;
步骤2:根据目标用户浏览的新闻数据和邻近用户浏览的新闻数据构建三部图网络推荐模型;
步骤3:根据三部图网络推荐模型计算新闻的初始资源;
步骤4:采用基于权重热量传导算法将三部图网络推荐模型分解为“新闻-用户”和“新闻-主题”方向上的两个二部图;
步骤5:将新闻的初始资源输入“新闻-主题”的二部图中,得到新闻向主题传导后的主题结点资源值;
步骤6:将新闻的初始资源输入“新闻-用户”的二部图中,得到主题向新闻传导后新闻结点的资源值。
3.根据权利要求2所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,获取三部图网络推荐模型的过程包括:
步骤1:将用户集U={u1,u2,…,un}、项目集I={I1,I2,…,Im}、特征集T={t1,t2,…,tp}输入到三部图网络中;
步骤2:根据三个数据集内的节点之间的连接关系,创建三个关系矩阵A,B,C;
其中,矩阵A是用户-项目关系矩阵,若用户ui与项目Ij间存在连接关系,即用户选择过该项目,则aij=1;否则为0;
矩阵B是项目-主题关系矩阵,如果项目Ii与主题tj间存在连接关系,则βij=1;否则为0;
矩阵C是主题-用户关系矩阵,如果用户ui使用过主题tj,用cij表示用户对该主题使用的次数。
4.根据权利要求2所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,获取与目标用户邻近用户的过程包括:
获取目标用户浏览新闻的主题特征;采用邻域方法对目标用户浏览过的新闻文本进行编号处理,得到目标用户浏览新闻项目倒排列表;根据目标用户浏览新闻项目倒排列表和目标用户浏览新闻的主题特征计算用户间的相似性;根据相似性的大小得到与目标用户最邻近的用户。
5.根据权利要求4所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,所述得到与目标用户最邻近用户的步骤包括:
步骤1:找到和目标用户有着相似浏览行为的用户;
步骤2:提取用户所浏览过的新闻主题特征;
步骤3:根据主题特征建立用户—主题倒排列表;
步骤4:使用jaccard公式计算用户间的相似度;
步骤5:按照相似度由高到低取前N个用户作为最近邻用户;
其中,jaccard表示一种相似度计算方法。
6.根据权利要求5所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,所述计算用户间的相似度的公式为:
Figure FDA0003620334840000031
其中,T(a)是用户a浏览过的主题特征词,T(b)是用户b浏览过的主题特征词,∩表示交运算,∪表示并运算。
7.根据权利要求4所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,所述获取目标用户浏览新闻的主题特征的过程包括:
步骤1:根据浏览的用户数据获取新闻d的生成词wj,并求取在新闻d的条件下生成词wj的概率为P(wj|d);
步骤2:根据P(wj|d)求取任意文本di中生成词wj的概率P(di,wj);
步骤3:根据P(di,wj)求取含有N个词的新闻生成所有词的概率P(W|di);
步骤4:根据P(di,wj)求取所有语料库生成所有词的概率P(W|D);
步骤5:使用EM算法优化P(zk|di)和P(wj|zk),得到每篇新闻的主题分布和每个主题下词的分布;
步骤6:对每篇文档在得到其主题分布后取分布概率最大的三个主题作为该新闻的主题特征;
其中,EM表示对LDA主题模型的两个参数进行优化,W表示所有词的集合,D表示所有文档的集合,zk表示文档的某个主题。
8.根据权利要求7所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,EM算法优化的公式为:
Figure FDA0003620334840000041
其中,
Figure FDA0003620334840000042
表示主题zk下的词的分布,θ表示文档di下的主题分布。
CN202010185236.2A 2020-03-17 2020-03-17 基于时间加权的三部图新闻推荐方法 Active CN111400483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010185236.2A CN111400483B (zh) 2020-03-17 2020-03-17 基于时间加权的三部图新闻推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010185236.2A CN111400483B (zh) 2020-03-17 2020-03-17 基于时间加权的三部图新闻推荐方法

Publications (2)

Publication Number Publication Date
CN111400483A CN111400483A (zh) 2020-07-10
CN111400483B true CN111400483B (zh) 2022-06-21

Family

ID=71428957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010185236.2A Active CN111400483B (zh) 2020-03-17 2020-03-17 基于时间加权的三部图新闻推荐方法

Country Status (1)

Country Link
CN (1) CN111400483B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239288B (zh) * 2020-11-23 2023-06-20 辽宁师范大学 基于加权三部图的协同过滤推荐方法
CN113722424B (zh) * 2021-07-20 2024-02-02 国网山东省电力公司电力科学研究院 一种基于新闻事件的科研方向推荐方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202205A (zh) * 2016-06-28 2016-12-07 重庆大学 基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法
CN108765042A (zh) * 2018-03-22 2018-11-06 浙江大学城市学院 一种基于用户与商铺网络-物理空间交互行为的商铺推荐算法
CN108805642A (zh) * 2017-05-02 2018-11-13 合信息技术(北京)有限公司 推荐方法及装置
CN109165847A (zh) * 2018-08-24 2019-01-08 广东工业大学 一种基于推荐系统的项目推荐方法、装置及设备
CN109711653A (zh) * 2017-10-26 2019-05-03 厦门一品威客网络科技股份有限公司 基于威客-任务-标签三方图的威客任务推荐方法
KR101985603B1 (ko) * 2017-11-27 2019-06-03 (주)프람트테크놀로지 삼분 그래프에 기반한 추천 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180253695A1 (en) * 2017-03-06 2018-09-06 Linkedin Corporation Generating job recommendations using job posting similarity

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202205A (zh) * 2016-06-28 2016-12-07 重庆大学 基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法
CN108805642A (zh) * 2017-05-02 2018-11-13 合信息技术(北京)有限公司 推荐方法及装置
CN109711653A (zh) * 2017-10-26 2019-05-03 厦门一品威客网络科技股份有限公司 基于威客-任务-标签三方图的威客任务推荐方法
KR101985603B1 (ko) * 2017-11-27 2019-06-03 (주)프람트테크놀로지 삼분 그래프에 기반한 추천 방법
CN108765042A (zh) * 2018-03-22 2018-11-06 浙江大学城市学院 一种基于用户与商铺网络-物理空间交互行为的商铺推荐算法
CN109165847A (zh) * 2018-08-24 2019-01-08 广东工业大学 一种基于推荐系统的项目推荐方法、装置及设备

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Personalized recommendation via integrated diffusion on user–item–tag tripartite graphs;Zi-KeZhang 等;《ELSEVIER》;20100101;第389卷(第1期);第179-186页 *
Research on Knowledge Recommendation Based on Weighted Directional Tripartite Graphic Network Structure;Juanli Zheng等;《Computer Supported Cooperative Work and Social Computing》;20170930;第201–204页 *
一种三部图网络中标签时间加权的推荐方法;顾亦然 等;《计算机科学》;20120815;第39卷(第8期);第96-98+129页 *
基于三部图和时间效应的推荐算法研究;牟斌皓;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190715;I138-1391 *
基于主题模型和时间权重的三部图个性化新闻推荐算法研究;李交泰;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20220315;I138-3234 *
基于主题模型的热点新闻推荐算法研究;张宁 等;《计算机科学与应用》;20191231;第9卷(第10期);第1831-1838页 *
融合社交关系与时间因素的主题模型推荐算法;高茂庭 等;《计算机工程》;20190606;第46卷(第3期);第66-72页 *

Also Published As

Publication number Publication date
CN111400483A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
Hui et al. Personalized recommendation system based on knowledge embedding and historical behavior
Ding et al. Learning topical translation model for microblog hashtag suggestion
Lu et al. Scalable news recommendation using multi-dimensional similarity and Jaccard–Kmeans clustering
Lv et al. FeRe: Exploiting influence of multi-dimensional features resided in news domain for recommendation
Lubis et al. A framework of utilizing big data of social media to find out the habits of users using keyword
Dezfouli et al. Deep neural review text interaction for recommendation systems
Yang et al. A topic model for co-occurring normal documents and short texts
CN111159341A (zh) 基于用户投资理财偏好的资讯推荐方法及装置
CN111400483B (zh) 基于时间加权的三部图新闻推荐方法
Velásquez Web site keywords: A methodology for improving gradually the web site text content
Gong et al. Phrase-based hashtag recommendation for microblog posts.
Lin et al. NL2API: A framework for bootstrapping service recommendation using natural language queries
Yang et al. Leveraging global and local topic popularities for LDA-based document clustering
Mohotti et al. Corpus-based augmented media posts with density-based clustering for community detection
Xu et al. Do adjective features from user reviews address sparsity and transparency in recommender systems?
Chen et al. Knowledge graph enhanced third-party library recommendation for mobile application development
An et al. A heuristic approach on metadata recommendation for search engine optimization
Huang et al. Multi-task learning for entity recommendation and document ranking in web search
Zhu et al. A joint model of extended LDA and IBTM over streaming Chinese short texts
CN111143667B (zh) 一种基于lda主题模型的三部图新闻推荐方法
Said et al. Personalizing tags: a folksonomy-like approach for recommending movies
Dong et al. Owgc-hmc: An online web genre classification model based on hierarchical multilabel classification
Al-Saffar et al. Survey on Implicit Feedbacks Extraction based on Yelp Dataset using Collaborative Filtering
Rani et al. A Study on Diverse Methods and Performance Measures in Sentiment Analysis
Selvan et al. ASE: Automatic search engine for dynamic information retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant