CN111143667B - 一种基于lda主题模型的三部图新闻推荐方法 - Google Patents

一种基于lda主题模型的三部图新闻推荐方法 Download PDF

Info

Publication number
CN111143667B
CN111143667B CN201911236779.6A CN201911236779A CN111143667B CN 111143667 B CN111143667 B CN 111143667B CN 201911236779 A CN201911236779 A CN 201911236779A CN 111143667 B CN111143667 B CN 111143667B
Authority
CN
China
Prior art keywords
user
news
article
topic
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911236779.6A
Other languages
English (en)
Other versions
CN111143667A (zh
Inventor
韦世红
李交泰
石旭
强帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911236779.6A priority Critical patent/CN111143667B/zh
Publication of CN111143667A publication Critical patent/CN111143667A/zh
Application granted granted Critical
Publication of CN111143667B publication Critical patent/CN111143667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及信息检索和数据挖掘领域,特别涉及一种基于LDA主题模型的三部图新闻推荐方法,包括获取用户浏览过的新闻标题和文本并记录点击时间,并对获取的数据进行预处理;使用LDA文档主题建模方法对预处理后的数据进行主题建模得到新闻的主题特征;根据领域方法得到用户物品倒排列表并结合主题特征进一步计算用户间的相似性,最后得到目标用户最近邻用户;将目标用户和最近邻用户和这些用户所浏览过的新闻以及这些新闻所属的主题输入到基于加权的三部图网络结构中得到欲推荐新闻的最终权重,按照该权值由高到低进行TOP‑N推荐;本发明有效利用了新闻的文本数据提提升了推荐精度,还改善了个性化推荐方法的稀疏性问题。

Description

一种基于LDA主题模型的三部图新闻推荐方法
技术领域
本发明涉及信息检索和数据挖掘领域,特别涉及一种基于隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型的三部图新闻推荐方法。
背景技术
随着移动网络的飞速发展以及智能手机的普及,人们的各种生活习惯也在潜移默化的被改变。曾经新闻信息大多通过看报纸和看电视来获取,这种方式从新闻信息的产生到生产出该条新闻再到发行,最终才能传播到每个人。这中间经历的时间相对比较长,而新闻本身所特有的特点之一就是时效性,如果在一定的时间内没有传播出来,那这些新闻就丧失了价值而变得毫无意义。现如今各类新闻客户端的出现,随时随地浏览新闻已经成为人们的日常活动之一。同时生产新闻的成本和时间都在大幅缩减,每时每刻媒体和个人都能够产生新闻信息数据。伴随着信息时代各式各样的数据信息产量呈几何指数形式增长现象的出现,给互联网用户带来了严重信息过载的问题。同时快节奏的生活方式又导致用户没有时间和精力在海量的信息中挨个寻找自己感兴趣的东西,因此人们想要从海量的新闻数据中找到自己感兴趣的信息已经变得越来越困难,还会出现信息利用率低的现象,造成信息资源的浪费。
为解决此类问题,诸多学者提出了很多不同的解决方法,例如对各类信息进行分门别类,研发设计搜索引擎等等。但是这些方法都存在着诸多的问题,随着互联网产生数据的不断增多,对其进行分类后的类目数量也是极为庞大的,这种情况下再利用分门别类的方式必将导致浏览者很难从中获取自己需要的内容,因此个性化推荐系统应运而生。
个性化推荐系统利用各种方式收集用户的一些历史行为,然后再对这些数据进行分析并对每个用户进行兴趣建模,之后再通过复杂的算法逻辑计算为每个人生成能够满足其兴趣爱好的信息并主动推荐给他们,从而达到个性化推荐的目的。传统推荐系统的做法是通过构建用户与物品之间的二元关系,即用户评分矩阵,矩阵中的每一行表示一个用户向量。通过计算待推荐用户向量与其他用户向量的相似性来找到邻居用户,通过邻居用户对物品的评分得到待推荐用户最可能感兴趣的物品列表。从国内外学者的研究中发现,物品的标签应用到推荐系统中可以提高推荐的精准性,从而从最初的用户-物品二元关系的推荐算法扩展成用户-物品-标签三元关系的推荐算法。
发明内容
为了提高推荐结果的精确度,本发明提出一种基于LDA主题模型的三部图新闻推荐方法,包括:
S1、获取用户浏览过的新闻标题和文本并记录点击时间,并对获取的数据进行预处理;
S2、使用LDA文档主题建模方法对预处理后的数据进行主题建模得到新闻的主题特征;
S3、根据领域方法得到用户物品倒排列表并结合主题特征进一步计算用户间的相似性,最后得到目标用户最近邻用户;
S4、将目标用户和最近邻用户和这些用户所浏览过的新闻以及这些新闻所属的主题输入到基于加权的三部图网络结构中得到欲推荐新闻的最终权重,按照该权值由高到低进行TOP-N推荐。
进一步的,获取主题特征的过程包括:根据每篇新闻的主题分布和每个主题下词的分布,主题概率超过设定阈值时将该主题提取作为该新闻的主题特征,主题概率表示为:
L(φ|θ)=∑∑log P(di,wj);
其中,L(φ|θ)为主题概率,φ为主题zk下的词的分布,θ是文档di下主题的分布;P(di,wj)表示的是任意文档di生成词wj的概率。
进一步的,用户间的相似性计算包括:
Figure BDA0002305107000000031
其中,Sab表示用户a与用户b之间的相似性;T(a)表示用户a浏览过的主题特征词。
进一步的,利用基于权重三部图网络结构推获得欲推荐给目标用户新闻的最终权重的过程包括以下步骤:
将用户集U={u1,u2,...,un}、物品集I={I1,I2,...,Im}、特征集T={T1,T2,...,Tp}三个数据集作为三部图网络的输入;
根据三个数据集内的节点之间的连接关系,创建三个关系矩阵,即用户-物品关系矩阵A、物品-主题关系矩阵B以及主题-用户关系矩阵C,在三部图中这三个矩阵矩阵记录了各个结点之间的连边关系,是构建三部图模型的关键;
在用户端,根据用户拥有的主题计算用户的权重并对获得的权重进行归一化;
在主题端,分别从用户侧和物品侧考虑用户的主题权重,获得主题端的初始权重;
在物品端,分别从用户侧和主题侧考虑用户的物品权重,获得用户侧的物品权重和主题侧的物品权重;
基于权重的物质扩散,在初始化三部图之后,将三部图分解为物品-用户、物品-主题方向上的两个二部图;
物品的资源值从物品向用户、主题方向扩散,再从用户、主题向物品方向扩散,两个方向的扩散最终都会回到物品上,得到物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值;
根据物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值进行线性合成,获得物品资源值,即欲推荐新闻的最终权重;
按照物品资源值的由高到低进行对相关用户的TOP-N推荐。
本发明考虑到了新闻文本同时可能含有多个类别主题的特性,考虑到了用户-新闻-主题的三元关系,并将基于领域的思想融入三部图推荐算法中,提升了推荐结果的精度。
附图说明
图1为本发明一种基于LDA主题模型的三部图新闻推荐方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于LDA主题模型的三部图新闻推荐方法,如图1,包括以下步骤:
S1、获取用户浏览过的新闻标题和文本并记录点击时间,并对获取的数据进行预处理;
S2、使用LDA文档主题建模方法对预处理后的数据进行主题建模得到新闻的主题特征;
S3、根据领域方法得到用户物品倒排列表并结合主题特征进一步计算用户间的相似性,最后得到目标用户最近邻用户;
S4、将目标用户和最近邻用户和这些用户所浏览过的新闻以及这些新闻所属的主题输入到基于加权的三部图网络结构中得到欲推荐新闻的最终权重,按照该权值由高到低进行TOP-N推荐。
在本实施例中,对新闻文本进行预处理包括去掉那些浏览量极少的用户,并且有些重复的数据也要清理掉。提取用户ID、新闻标题、新闻文本以及点击新闻的的时间。特别的对于新闻文本十分重要,为了提高新闻文本主题提取的精确性要用jieba分词对新闻文本进行分词、去除停用词和标点等预处理,将新闻文本转化为词向量。
使用LDA文档主题建模方法对预处理后的数据进行主题建模得到新闻的主题特征,若主题的概率分布值大于阈值则将其提取出来作为新闻文本的主题特征,包括以下步骤:
(一)获取LDA文档
LDA是在一篇新闻生成过程的基础上进行逆推得到主题分布和词分布的。
LDA文档生成过程表示为:
P(wj|di)=∑P(zk|di)P(wj|zk);
其中,P(wj|di)表示文档下词的分布,即是LDA文档;P(zk|di)表示的是文档下的主题概率分布;P(wj|zk)是主题下词的概率分布。
(二)获取LDA文档的主题概率分布
根据每篇新闻的主题分布和每个主题下词的分布,使用EM算法迭代求文档的主题概率分布,表示为:
L(φ|θ)=∑∑log P(di,wj)
其中,L(φθ)为主题概率,φ为主题zk下的词的分布,θ是文档di下主题的分布;P(di,wj)表示的是任意文档di生成词wj的概率。
(三)获取新闻的主题特征
根据获取的主题概率分布,将文档中主题概率分布大于阈值的主题提取出来作为该新闻文本的特征。
根据领域方法得到用户物品倒排列表并结合主题特征进一步计算用户间的相似性,最后得到目标用户最近邻用户,利用领域的思想和新闻主题计算了用户间的相似度,进一步提高了推荐的准确性,最邻用户即为与目标用户相似度大于阈值的用户的集合,用户间的相似性计算包括:
Figure BDA0002305107000000051
其中,Sab表示用户a与用户b之间的相似性;T(a)表示用户a浏览过的主题特征词。
利用基于权重三部图网络结构推荐算法完成对目标用户的推荐包括以下步骤:
将用户集U={u1,u2,...,un}、物品集I={I1,I2,...,Im}、特征集T={T1,T2,...,Tp}三个数据集作为三部图网络的输入;
根据三个数据集内的节点之间的连接关系,创建三个关系矩阵,即用户-物品关系矩阵A、物品-主题关系矩阵B以及主题-用户关系矩阵C;
在用户端,根据用户拥有的主题计算用户的权重并对获得的权重进行归一化;
在主题端,分别从用户侧和物品侧考虑用户的主题权重,获得主题端的初始权重;
在物品端,分别从用户侧和主题侧考虑用户的物品权重,获得用户侧的物品权重和主题侧的物品权重;
基于权重的物质扩散,在初始化三部图之后,将三部图分解为物品-用户、物品-主题方向上的两个二部图;
物品的资源值从物品向用户、主题方向扩散,再从用户、主题向物品方向扩散,两个方向的扩散最终都会回到物品上,得到物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值;
根据物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值进行线性合成,获得物品资源值,即欲推荐新闻的最终权重;
按照物品资源值的由高到低进行对相关用户的TOP-N推荐。
在本实施例中,用户-物品关系矩阵A中的元素aij表示用户ui与物品Ij间的连接关系,当aij=1时表示用户ui选择过物品Ij,否则aij=0;
物品-主题关系矩阵B中的元素βij表示物品Ij与主题tj之间的连接关系,当βij=1时表示用户ui选择过物品tj,否则aij=0;
主题-用户关系矩阵C中的元素cij表示用户ui与主题tj之间的连接关系,cij的值为用户ui对主题tj的使用次数。
用户端资源初始化,将有最多主题的用户作为基准,用户权重计算公式表示为:
Figure BDA0002305107000000071
对用户权重进行归一化操作,表示为:
Figure BDA0002305107000000072
其中,
Figure BDA0002305107000000073
表示用户ui的权重;E(ui)表示用户ui的主题的集合;E(umax)表示含有最多主题的用户umax的主题的集合;
Figure BDA0002305107000000074
表示用户ui的权重归一化后的值,将该值作为用户的初始资源;
Figure BDA0002305107000000075
表示含有最多主题的用户umax的权重。
主题端资源初始化,将从用户侧和物品侧两个方向来考虑,包括:
(1)用户侧的主题权重
根据用户的初始资源计算用户侧的主题权重
Figure BDA00023051070000000711
表示为:
Figure BDA0002305107000000076
其中,
Figure BDA0002305107000000077
表示含有主题ti的用户的集合
将有着最多用户所点击的主题作为基准初始化后得到主题在用户侧的初始资源,用户侧的初始资源表示为:
Figure BDA0002305107000000078
其中,
Figure BDA0002305107000000079
表示用户侧的主题结点ti的初始资源值;
Figure BDA00023051070000000710
是所有用户侧主题结点中初始资源的最大值。
(2)物品侧的主题权重
根据含有主题ti的物品ik包含的主题数量计算物品侧的主题权重,表示为:
Figure BDA0002305107000000081
其中,
Figure BDA0002305107000000082
表示含有主题ti的所有物品集;
Figure BDA0002305107000000083
表示含有主题ti的物品ik包含的主题数量,将被最多的用户所含有的主题作为基准进行归一化计算得到物品侧的初始资源值,表示为:
Figure BDA0002305107000000084
其中,
Figure BDA0002305107000000085
表示在物品侧的主题结点ti的初始资源值;
Figure BDA0002305107000000086
是所有物品侧主题结点中初始资源的最大值
(3)主题端权重
根据前面(1)和(2),得到主题端的权重,即主题的初始化资源值,表示为:
Figure BDA0002305107000000087
其中,
Figure BDA0002305107000000088
为主题用户侧的初始资源;
Figure BDA0002305107000000089
为主题物品侧的初始资源值;λ1为主题的权重因子,λ1∈[0,1]。
物品端资源初始化,将从用户侧和主题侧两个方面来考虑,包括:
(1)用户侧的物品权重
根据用户的初始资源计算用户侧的主题权重
Figure BDA00023051070000000810
表示为:
Figure BDA00023051070000000811
其中,
Figure BDA00023051070000000812
表示含有主题ti的用户的集合。
将有着最多用户所点击的主题作为基准初始化后得到主题在用户侧的初始资源,用户侧的初始资源表示为:
Figure BDA00023051070000000813
其中,
Figure BDA00023051070000000814
表示在用户侧的物品结点的初始资源值;
Figure BDA00023051070000000815
在用户侧的物品结点的最大初始资源值表示。
(2)主题侧的物品权重
根据主题的初始资源值计算主题侧的物品权重,表示为:
Figure BDA0002305107000000091
其中,
Figure BDA0002305107000000092
表示在主题侧的物品结点ik的初始资源值;
Figure BDA0002305107000000093
表示在主题侧的物品结点的最大初始资源值。
(3)物品端权重
根据前面(1)和(2),得到物品端的权重,即物品的初始化资源值,表示为:
Figure BDA0002305107000000094
其中,
Figure BDA0002305107000000095
为物品用户侧的物品初始资源;
Figure BDA0002305107000000096
为物品主题侧的初始资源;λ2为物品的权重因子,λ2∈[0,1]。
基于权重的物质扩散,在初始化三部图之后,将三部图分解为“物品-用户”、“物品-主题”方向上的两个二部图。物品的资源值从物品向用户、主题方向扩散,再从用户、主题向物品方向扩散,两个方向的扩散最终都会回到物品上,得到最终的物品资源值。在三部图内运行物质扩散算法实行物品资源的再分配包括:
(1)物品-用户-物品方向的扩散
Figure BDA0002305107000000097
Figure BDA0002305107000000098
其中,aij为用户-物品关系矩阵A中的元素,表示用户ui和物品ik的连接关系;f(Ui)表示物品向用户方向扩散后,用户节点的资源值;k(Ui)表示用户节点ui和其邻接物品间的边权重总和;ci物品节点的初始资源值;k(Ii)表示物品节点ik和其邻接用户间的边权重总和;m为物品的总数;n为用户的总数。
(2)物品-主题-物品方向的扩散
物品-主题-物品方向上的扩散过程与物品-用户-物品方向的扩散过程相同,不同在于,物品节点与主题节点的边权重都为1。表示为:
Figure BDA0002305107000000101
Figure BDA0002305107000000102
其中,f(Ui)表示物品向用户方向扩散后,用户节点的资源值;k(Ti)表示的是主题节点与其邻接的物品节点的边权重总和值;ci物品节点的初始资源值;k(Ii)表示的是物品节点与其邻接的主题节点间的边权重的总和值。
在初始化完物品的资源,设置完节点间的边权重后,通过用户物品、物品标签两个方向的物质扩散后,得到两个方向扩散回来的资源值,最终物品的资源向量由用户向物品扩散后的资源值和主题向物品扩散后物品节点的资源值线性合成,表示为:
f(Ij)=λfu(Ij)+(1-λ)ft(Ij);
其中,λ为物品资源值权重因子,λ∈[0,1]。
最后按照物品的资源向量;f(Ii)从大到小向目标用户推荐新闻,此处物品的资源向量f(Ii)即为新闻的最终权重。
在本发明中,物品指的是用户所浏览过的新闻文本和标题,主题指的是使用LDA主题模型从新闻文本中提取出的主题。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,具体包括以下步骤:
S1、获取用户浏览过的新闻标题和文本并记录点击时间,并对获取的数据进行预处理;
S2、使用LDA文档主题建模方法对预处理后的数据进行主题建模得到新闻的主题特征;
S3、根据领域方法得到用户物品倒排列表并结合主题特征进一步计算用户间的相似性,最后得到目标用户的最近邻用户,其中用户间的相似性计算包括:
Figure FDA0004153687680000011
其中,Sab表示用户a与用户b之间的相似性;T(a)表示用户a浏览过的主题特征词;
S4、将目标用户和最近邻用户的数据输入到基于加权的三部图网结构中得到欲推荐给目标用户新闻的最终权重,按照该权重由高到低进行TOP-N推荐,具体包括:
将用户集U={u1,u2,...,un}、物品集I={I1,I2,...,Im}、特征集T={T1,T2,...,Tp}三个数据集作为三部图网络的输入;
根据三个数据集内的节点之间的连接关系,创建三个关系矩阵,即用户-物品关系矩阵A、物品-主题关系矩阵B以及主题-用户关系矩阵C;
在用户端,根据用户拥有的主题计算用户的权重并对获得的权重进行归一化,包括:
Figure FDA0004153687680000012
Figure FDA0004153687680000013
其中,
Figure FDA0004153687680000021
表示用户ui的权重;E(ui)表示用户ui的主题的集合;E(umax)表示含有最多主题的用户umax的主题的集合;
Figure FDA0004153687680000022
表示用户ui的权重归一化后的值;
Figure FDA0004153687680000023
表示含有最多主题的用户umax的权重;
在主题端,分别从用户侧和物品侧考虑用户的主题权重,获得主题端的初始权重;主题的初始化资源值表示为:
Figure FDA0004153687680000024
其中,
Figure FDA0004153687680000025
为主题用户侧的初始资源;
Figure FDA0004153687680000026
为主题物品侧的初始资源值;λ1为主题的权重因子,λ1∈[0,1];
在物品端,分别从用户侧和主题侧考虑用户的物品权重,获得用户侧的物品权重和主题侧的物品权重;物品的初始化资源值表示为:
Figure FDA0004153687680000027
其中,
Figure FDA0004153687680000028
为物品用户侧的物品初始资源;
Figure FDA0004153687680000029
为物品主题侧的初始资源;λ2为物品的权重因子,λ2∈[0,1];
基于权重的物质扩散,在初始化三部图之后,将三部图分解为物品-用户、物品-主题方向上的两个二部图;
物品的资源值从物品向用户、主题方向扩散,再从用户、主题向物品方向扩散,两个方向的扩散最终都会回到物品上,得到物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值;用户向物品扩散后主题节点的资源值fu(Ij)表示为:
Figure FDA00041536876800000210
Figure FDA00041536876800000211
其中,aij为用户-物品关系矩阵A中的元素,表示用户ui和物品ik的连接关系;f(Ui)表示物品向用户方向扩散后,用户节点的资源值;k(Ui)表示用户节点ui和其邻接物品间的边权重总和;ci物品节点的初始资源值;k(Ii)表示物品节点ik和其邻接用户间的边权重总和;m为物品的总数;n为用户的总数;
主题向物品扩散后物品节点的资源值ft(Ij)表示为:
Figure FDA0004153687680000031
Figure FDA0004153687680000032
其中,k(Ti)表示的是主题节点与其邻接的物品节点的边权重总和值;
根据物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值进行线性合成,获得物品资源值,即欲推荐新闻的最终权重;物品资源值表示为:
f(Ij)=λfu(Ij)+(1-λ)ft(Ij);
其中,λ为物品资源值权重因子,λ∈[0,1];
按照物品资源值的由高到低进行对相关用户的TOP-N推荐。
2.根据权利要求1所述的一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,获取主题特征的过程包括:根据每篇新闻的主题分布和每个主题下词的分布,主题概率超过设定阈值时将该主题提取作为该新闻的主题特征,主题概率表示为:
L(φ|θ)=∑∑logP(di,wj);
其中,L(φ|θ)为主题概率,φ为主题zk下的词的分布,θ是文档di下主题的分布;P(di,wj)表示的是任意文档di生成词wj的概率。
CN201911236779.6A 2019-12-05 2019-12-05 一种基于lda主题模型的三部图新闻推荐方法 Active CN111143667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911236779.6A CN111143667B (zh) 2019-12-05 2019-12-05 一种基于lda主题模型的三部图新闻推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911236779.6A CN111143667B (zh) 2019-12-05 2019-12-05 一种基于lda主题模型的三部图新闻推荐方法

Publications (2)

Publication Number Publication Date
CN111143667A CN111143667A (zh) 2020-05-12
CN111143667B true CN111143667B (zh) 2023-05-02

Family

ID=70517655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911236779.6A Active CN111143667B (zh) 2019-12-05 2019-12-05 一种基于lda主题模型的三部图新闻推荐方法

Country Status (1)

Country Link
CN (1) CN111143667B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841155A (zh) * 2022-04-21 2022-08-02 科技日报社 主题内容智能聚合方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908669A (zh) * 2017-10-17 2018-04-13 广东广业开元科技有限公司 一种基于并行lda的大数据新闻推荐方法、系统及装置
CN108664661A (zh) * 2018-05-22 2018-10-16 武汉理工大学 一种基于频繁主题集偏好的学术论文推荐方法
CN108805642A (zh) * 2017-05-02 2018-11-13 合信息技术(北京)有限公司 推荐方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502789B2 (en) * 2005-12-15 2009-03-10 Microsoft Corporation Identifying important news reports from news home pages
EP2786272A4 (en) * 2011-12-02 2015-09-09 Hewlett Packard Development Co EXTRACTION OF SUBJECTS AND ASSOCIATION OF VIDEOS

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805642A (zh) * 2017-05-02 2018-11-13 合信息技术(北京)有限公司 推荐方法及装置
CN107908669A (zh) * 2017-10-17 2018-04-13 广东广业开元科技有限公司 一种基于并行lda的大数据新闻推荐方法、系统及装置
CN108664661A (zh) * 2018-05-22 2018-10-16 武汉理工大学 一种基于频繁主题集偏好的学术论文推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Ren-De Li.Item Recommendation via latent topic tag.《IEEEXplore》.2018,全文. *
张艳梅 ; 王璐 ; 曹怀虎 ; 毛国君 ; .基于用户-兴趣-项目三部图的推荐算法.模式识别与人工智能.2015,(第10期),第1-10页. *
熊回香 ; 窦燕 ; .基于LDA主题模型的标签混合推荐研究.图书情报工作.2018,(第undefined期),第1-10页. *

Also Published As

Publication number Publication date
CN111143667A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
Yang et al. Discovering topic representative terms for short text clustering
Wu et al. Personalized microblog sentiment classification via multi-task learning
Lubis et al. A framework of utilizing big data of social media to find out the habits of users using keyword
CN106126605B (zh) 一种基于用户画像的短文本分类方法
Yang et al. A topic model for co-occurring normal documents and short texts
Yang et al. Leveraging global and local topic popularities for LDA-based document clustering
Huang et al. An empirical study of personalized advertising recommendation based on DBSCAN clustering of sina weibo user-generated content
Kuo et al. Integrated microblog sentiment analysis from users’ social interaction patterns and textual opinions
Andoh et al. Statistical analysis of public sentiment on the ghanaian government: a machine learning approach
CN111400483B (zh) 基于时间加权的三部图新闻推荐方法
Ghobakhloo et al. Design of a personalized recommender system using sentiment analysis in social media (case study: banking system)
Ramathulasi et al. Augmented latent Dirichlet allocation model via word embedded clusters for mashup service clustering
CN111143667B (zh) 一种基于lda主题模型的三部图新闻推荐方法
Ravanifard et al. Content-aware listwise collaborative filtering
Yang et al. Tag-based user interest discovery though keywords extraction in social network
Zheng et al. Personalized recommendations based on sentimental interest community detection
Peruma Document Clustering Using Graph Based Fuzzy Association Rule Generation.
Wang et al. A spatial and sequential combined method for web service classification
Kamel et al. Robust sentiment fusion on distribution of news
Zhu et al. Chinese texts classification system
CN115114425A (zh) 文本推送方法、装置、电子设备及计算机可读存储介质
Yong-sheng Image Tag Recommendation Algorithm Using Tensor Factorization.
CN110930189A (zh) 基于用户行为的个性化营销方法
Shankar et al. An approach for extracting tweets from social media factors
Sun et al. Leveraging user profiling in click-through rate prediction based on Zhihu data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant