CN107025310A - 一种自动实时新闻推荐方法 - Google Patents

一种自动实时新闻推荐方法 Download PDF

Info

Publication number
CN107025310A
CN107025310A CN201710345567.6A CN201710345567A CN107025310A CN 107025310 A CN107025310 A CN 107025310A CN 201710345567 A CN201710345567 A CN 201710345567A CN 107025310 A CN107025310 A CN 107025310A
Authority
CN
China
Prior art keywords
news
user
model
interest
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710345567.6A
Other languages
English (en)
Inventor
庞景秋
齐景春
崔放
于希丰
刘杨
张少卓
毛成岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Jiacheng Information Technology Ltd By Share Ltd
Original Assignee
Changchun Jiacheng Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Jiacheng Information Technology Ltd By Share Ltd filed Critical Changchun Jiacheng Information Technology Ltd By Share Ltd
Priority to CN201710345567.6A priority Critical patent/CN107025310A/zh
Publication of CN107025310A publication Critical patent/CN107025310A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动实时新闻推荐方法,包括以下步骤:新闻抓取,新闻预处理,新闻模型训练,新闻特征建模,用户特征初步建模,用户特征二次建模,基于新闻特征模型和用户兴趣模型的融合匹配度计算,并基于融合匹配度计算结果进行个性化新闻推荐。本发明能对新闻进行自动、实时的个性化推荐,无论是新用户和已注册用户,都具有很强的适应性和稳定性。

Description

一种自动实时新闻推荐方法
技术领域
本发明涉及一种新闻的推荐方法,其用于新闻推荐领域,特别涉及到一种自动实时新闻推荐方法。
背景技术
互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求。但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时,无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(information overload)问题。
解决信息超载的问题有以搜索引擎为代表的信息检索系统,但是使用搜索引擎的不同用户在使用同一个关键字搜索信息时,得到的结果是相同的,可见搜索引擎满足不了用户对信息的多元化和个性化需求。而个性化推荐系统,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息推送给用户。和搜索引擎相比,个性化推荐系统通过研究用户的兴趣偏好,进行个性化计算,发现用户的兴趣点,进而推送给用户感兴趣的信息。而个性化新闻推荐系统就是个性化推荐系统在新闻领域的最典型的应用。
新闻推荐系统中比较常用的推荐算法有三种:基于内容的推荐算法、协同过滤推荐算法和混合推荐算法。
基于内容的推荐算法是根据用户过去所选择的对象,找出和它相关属性相似度最高的对象,即认为该对象是最符合用户偏好的对象,并将其推荐给用户。这类算法通常来源于对信息进行检索,运用特征提取的方法,得出用户已经评价项目的特征信息,根据这些特征信息分析出用户的喜好,进而考察用户的兴趣与待推荐项目的匹配程度。但运用该方法的缺点是项目的特征抽取比较困难,特别是对于一些非结构化的信息更加难以处理。同时推荐内容受限,很难挖掘用户潜在兴趣。
协同过滤算法的基本原理是根据用户对项目的反馈信息,找出与该用户相类似的用户或者找到与该项目相类似的项目,进而进行合理推荐。协同个性化推荐的优点是可以发现用户潜在的兴趣点,缺点是不能推荐那些从来没有被同类中其他用户访问过的信息,难以解决冷启动问题、数据稀疏性问题及可扩展性问题。
混合推荐是将基于内容的推荐和协同推荐结合起来的一种推荐方法。既比较信息资源与用户兴趣模型的相似度,又寻找具有相近兴趣的用户类,可以更好的进行个性化推荐。但需具体应用场景具体分析。
发明内容
本发明提供一种自动实时新闻推荐方法,以解决上述现有技术的缺陷,本发明能对新闻进行自动、实时的个性化推荐,无论是新用户和已注册用户,都具有很强的适应性和稳定性。
一种自动实时新闻推荐方法,其特征在于,包括以下步骤:
步骤一、新闻抓取:通过爬虫工具,抓取新闻网页地址,下载新闻标题及新闻内容,并将新闻存储到数据库新闻表中;
步骤二、新闻预处理:对新闻进行分词处理,只保留名词;去掉无效新闻,并将有效新闻的分词结果存储到数据库新闻表中;
步骤三、新闻模型训练:采用基于Gibbs Sampling的LDA算法进行主题模型的训练,建立主题模型;
步骤四、新闻特征建模:进行新闻特征提取,建立新闻特征模型,新闻特征模型由新闻标签模型Nt和新闻主题特征模型Nl组成,即N={Nt,Nl};
步骤五、用户特征初步建模:进行用户特征提取,建立用户画像,对用户特征进行初步建模;
步骤六、用户特征二次建模:基于步骤五用户特征初步建模结果,对用户特征进行二次精确建模,建立用户兴趣模型U,用户兴趣模型U由用户兴趣关键词模型Ut和用户兴趣主题特征模型Ul组成,即U={Ut,Ul};
步骤七、相似度计算:基于上述步骤四至步骤六提取的新闻特征和用户兴趣,进行新闻特征模型和用户兴趣模型的融合匹配度计算;
步骤八、新闻推荐。
本发明所述的一种自动实时新闻推荐方法,步骤三新闻模型训练包括以下过程:
采用基于Gibbs Sampling的LDA算法进行主题模型的训练:先设定主题个数K,建立主题模型,即每个新闻文本在各个主题上对应的主题特征向量Tl=(w1,w2,w3,…,wk);
主题模型建立后,对建立的主题模型使用Perplexity值进行持续优化,Perplexity值计算公式为:
Perplexity值越小,则说明模型越好。
本发明所述的一种自动实时新闻推荐方法,步骤四新闻特征建模包括以下过程:
首先运用TF-IDF算法计算新闻关键词,得到新闻标签模型Nt,即:Nt={关键词序列};
再运用所述步骤三中建立的主题模型计算新闻在主题模型上分布的新闻主题特征模型Nl,即:Nl={w1,w2,w3,…,wn},其中n为主题个数。
本发明所述的一种自动实时新闻推荐方法,步骤五用户特征初步建模包括以下步骤:
根据用户的特征,对用户的群体分成若干个先验的聚类,并赋予每个类别特定的初始关键词,得到用户初始兴趣关键词列表Uk={初始关键词序列}。通过该步骤可有效解决新闻推荐冷启动问题。
本发明所述的一种自动实时新闻推荐方法,步骤六用户特征二次建模包括以下过程:
1)建立用户兴趣关键词模型Ut
根据用户以往有过浏览、转发、评论行为的新闻,提取用户兴趣行为特征关键词列表Un,需设置浏览、转发、评论行为的权重值修正向量K={k1,k2,k3},且
再将用户兴趣行为特征关键词列表Un与用户初始兴趣关键词列表Uk用公式Vn=Uk∪Un进行合并,得到用户兴趣关键词列表Vn={v1,v2,v3,…,vn};
根据TF-IDF算法计算Vn中的关键词的TF-IDF值得到向量Wn={tk1,tk2,tk3,…,tkn};
根据公式wki=kj*tki计算得到权值向量Wt={wk1,wk2,wk3,…,wkn},其中n为关键词的个数,tki为TF-IDF词频向量值,kj为权重值修正向量K中的其中一个值,kj的值根据对应关键词所在文章的用户行为决定;
取Wt中权值排在前m的m个词,作为用户兴趣关键词模型Ut的关键词列表,即Ut={用户兴趣关键词}。
2)建立用户兴趣主题特征模型Ul
根据用户以往有过浏览、转发、评论行为的新闻,提取用户兴趣行为主题特征模型Ul={wu1,wu2,wu3,…,wun},其中需设置浏览、转发、评论行为的权重值修正向量K={k1,k2,k3},且
根据公式计算用户兴趣主题特征向量Ul,其中N为用户产生过行为的新闻的数量,Ni为用户产生过行为的新闻的主题模型,kj为权重值修正向量K中的其中一个值,kj的值根据对应关键词所在文章的用户行为决定。
本发明所述的一种自动实时新闻推荐方法,步骤七相似度计算包括以下过程:
1)计算新闻标签模型Nt和用户兴趣关键词模型Ut的匹配度θt:用公式来计算Nt和Ut的匹配程度,θt越大,Nt与Ut的匹配程度越高;
2)计算新闻主题特征模型Nl和用户兴趣主题特征模型Ul的匹配度Dl:用公式 计算新闻主题特征模型Nl与用户兴趣主题特征模型Ul的距离,用来衡量两个主题分布之间的差异,其中pi为新闻主题特征模型Nl中的元素,qi为用户兴趣主题特征模型Ul中的元素,K为Nl和Ul中的元素个数,Dl越小,Nl与Ul的匹配程度越高;
计算新闻模型与用户模型的融合匹配度S:用公式S=α*θt+β*1/Dl,进行融合匹配度计算,S越大,说明匹配度越高,其中,α、β为调整系数,且α+β=1。
本发明所述的一种自动实时新闻推荐方法,步骤八新闻推荐包括以下过程:
根据所述步骤七新闻特征模型和用户兴趣模型的融合匹配度计算得到的相似度值,选取前若干个相似度值较大的新闻建立推送列表,再加入时效性权值进行二次排序,将最后得到的新闻列表推荐给用户;
时效性权值计算公式如下:
其中S为所述步骤七计算的融合相似度,ε为时效性权值调整系数,t为系统当前时间,t0为新闻进入系统的时间。
本发明同时提供一种自动实时新闻推荐方法的实现装置,由以下几个模块构成:
新闻抓取模块:通过爬虫工具,抓取新闻网页地址,即统一资源定位符URL。下载新闻标题及新闻内容,并将新闻存储到数据库新闻表中。
新闻预处理模块:对新闻进行分词处理,只保留名词。去掉无效新闻,并将有效新闻的分词结果存储到数据库新闻表中。
新闻模型训练模块:采用基于Gibbs Sampling的LDA算法进行主题模型的训练。建立主题模型。
新闻特征提取模块:对新闻进行建模。首先运用TF-IDF算法计算文章关键词,得到新闻标签模型Nt,即:Nt={关键词序列}。再运用步骤三中建立的主题模型计算新闻主题特征模型Nl,即:Nl={w1,w2,w3,…,wn},其中n为主题个数。新闻模型由新闻标签模型Nt和新闻主题特征模型Nl组成,即N={Nt,Nl}。
用户特征提取模块:进行用户特征提取,建立用户画像,进行用户兴趣模型初步建模。根据用户的特征,对用户的群体分成若干个先验的聚类,并赋予类别特定的初始关键词。得到用户初始兴趣关键词列表Uk={初始关键词序列}。
用户二次精细建模模块:基于用户初步建模的模型,对用户进行二次精确建模。用户兴趣模型U由用户兴趣关键词模型Ut和用户兴趣主题特征模型Ul组成,即U={Ut,Ul}。
新闻特征模型和用户兴趣模型的融合匹配度计算模块。基于上述模块提取的新闻特征和用户特征,进行新闻特征模型和用户兴趣模型的融合匹配度计算。主要是分两步进行,首先计算新闻标签模型Nt和用户兴趣关键词模型Ut的匹配度θt,再计算新闻主题特征模型Nl和用户兴趣主题特征模型Ul的匹配度Dl。计算新闻模型与用户模型的融合匹配度S。在上述计算匹配度θt及匹配度Dl之后,用公式S=α*θt+β*1/Dl,进行融合匹配度计算,S越大,说明匹配度越高。其中,α、β为调整系数,且α+β=1。
个性化新闻推荐处理模块:根据上述新闻特征模型和用户兴趣模型的融合匹配度计算模块计算得到的相似度值,选取前10个相似度值较大的新闻建立推送列表,再加入时效性权值进行二次排序,将最后得到的新闻列表推荐给用户。时效性权值计算公式如下:
其中S为步骤七计算的融合相似度,ε为时效性权值调整系数,t为系统当前时间,t0为新闻进入系统的时间。
本发明提供的一种自动实时新闻推荐方法优点在于:本算法不仅在步骤四中克服了基于内容的推荐算法的项目特征提取困难的缺点,而且还在步骤五和步骤六中,对用户的特征进行初步及二次提取,解决了协同过滤的推荐算法的冷启动问题。同时,本方法利用文档相似性计算原理,在用户刷新推荐列表时,做到快速捕捉用户的兴趣点,做到实时准确的推荐。
附图说明
图1是本发明整体流程原理框图
图2是本发明新闻推荐方法流程图
图3是本发明主题模型训练流程图
图4是本发明Perplexity值曲线图
具体实施方式
本发明的具体实施方式将结合本发明在政务新闻推荐系统中的应用来说明。新闻推荐系统是借助移动端设备上的互联网信息数据传播技术,将推荐系统安装于应用软件中,对新闻事件报道和相关资讯编辑整理、重组衔接,以信息数据系统协调构建与资源共享的方式,依照个体的差异性信息需求、阅读兴趣,为受众提供定制化、个性化的新闻推送服务。本发明具体实施内容就是针对政务领域的不同用户,实现新闻的实时精准的个性化推送。本发明推荐算法整体结构框图如图1所示。
本发明的应用之一是政务新闻的推荐领域,基于政务新闻的专业性、指导性、时效性等特点,我们应用了本发明一种自动实时新闻推荐方法,该方法依托于新闻LDA隐语义模型和用户兴趣行为模型,计算融合匹配相似度。同时在用户刷新新闻列表时,融入了基于新闻内容的协同过滤算法作为辅助推荐策略。推荐具体流程图如图2所示。
本发明一种自动实时新闻推荐方法,具体实施步骤如下:
(1)通过自研爬虫工具JCSpider抓取新闻网页地址,即统一资源定位符URL。下载新闻标题及新闻内容,对于每篇新闻,赋予唯一的ID号,并将新闻存储到数据库新闻表中。
(2)新闻预处理。本发明采用Python中文分词模块结巴分词对新闻文本进行分词,首先去掉“的、得、地”等停用词,最后只保留名词。并将新闻的分词结果存储到数据库新闻表中。
(3)进行新闻模型训练。建立训练集。本发明利用步骤(1)中的爬虫工具从正义网中爬取近1年的新闻标题及内容,共保留3万条新闻,其中22000条制作训练集,8000条制作测试集。再采用基于Gibbs Sampling的LDA算法进行主题模型的训练。主题训练流程如图3所示。先设定主题个数K为50,建立主题模型,即每个新闻文本在各个主题上对应的主题特征向量Tl=(w1,w2,w3,…,wk),且主题模型建立后,要用测试集进行验证。取由3000条数据组成的测试集,对建立的主题模型使用Perplexity值进行持续优化,该值由如下公式计算得出。Perplexity值越小,说明模型越好。
实验结果表明,如图4所示,随着K值增大,Perplexity先是逐渐减小,最后趋于稳定。当K即主题个数大于60以后,Perplexity值逐渐稳定在1500左右。即当主题个数K取60时,Perplexity值最小,为1500。此时令K=60,并计算主题分布模型。
(4)提取新闻特征,对新闻进行建模。首先运用TF-IDF算法计算文章关键词,根据TF-IDF算法计算得到的权值按照从大到小排列,取前20个词作为文章的关键词,得到新闻标签模型Nt,即:Nt={关键词1,关键词2,关键词3,…,关键词n},n=20。再运用步骤(3)中建立的主题模型计算新闻在主题模型上分布的新闻主题特征模型Nl,即:Nl={w1,w2,w3,…,wk},其中k为主题个数60。新闻模型由新闻标签模型Nt和新闻主题特征模型Nl组成,即N={Nt,Nl}。
(5)提取用户特征,对用户进行初步建模。本发明的应用之一是政务新闻的推荐领域,基于政务新闻的特殊性,各省、市、县厅、局、委、办部门公务人员对新闻关心的侧重点略有差别,对用户的群体分成若干个先验的聚类,并赋予每个类别特定的初始关键词。这里以吉林省人社厅为例,共收集800名用户的基本信息,共分成7大类的先验聚类,分别是国内时政类、就业创业类、社会保险类、人事人才类、技能培训类、劳动关系类和人设综合类。每一类都有特定的关键词列表。每一类的用户初始兴趣关键词列表Uk={关键词1,关键词2,关键词3,…,关键词k},k为关键词的个数。通过对每一类别进行关键词初始化,可有效解决新闻推荐系统的冷启动问题。
(6)基于步骤(5)建立的用户初步建模的模型,对用户进行二次精确建模。用户兴趣模型U由用户兴趣关键词模型Ut和用户兴趣主题特征模型Ul组成,即U={Ut,Ul}。
建立用户兴趣关键词模型Ut。根据用户以往有过浏览、转发、评论等行为的新闻,提取用户兴趣行为特征关键词列表Un。这里需设置浏览、转发、评论等行为的权重值修正向量K={k1,k2,k3},且这里设置k1=0.2,k2=0.5,k3=0.3再将用户兴趣行为特征关键词列表Un与用户初始兴趣关键词列表Uk用公式Vn=Uk∪Un进行合并,得到用户兴趣关键词列表Vn={v1,v2,v3,…,vn}。根据TF-IDF算法计算Vn中的关键词的TF-IDF值得到向量Wn={tk1,tk2,tk3,…,tkn}。将Wn中值按照从大到小排列,取前20个权值对应的词作为用户兴趣关键词列表Vk={v1,v2,v3,…,vk}。根据公式wki=kj*tki计算得到权值向量Wt={wk1,wk2,wk3,…,wkn},其中tki为TF-IDF词频向量值,kj为权重值修正向量K中的其中一个值,如何确定kj的值,需根据对应关键词所在文章的用户行为决定,其中浏览行为0.2,转发行为0.5,评论行为0.3。取Wt中权值排在前20的20个词作为用户兴趣关键词模型Ut的关键词列表,即Ut={关键词1,关键词2,关键词3,…,关键词k},其中k=20。
建立用户兴趣主题特征模型Ul。根据用户以往有过浏览、转发、评论等行为的新闻,提取用户兴趣行为主题特征模型Ul={wu1,wu2,wu3,…,wun},其中这里仍需设置浏览、转发、评论等行为的权重值修正向量K={k1,k2,k3},且根据公式 计算用户兴趣主题特征向量Ul,其中N为用户产生过行为的新闻的数量,Ni为用户产生过行为的新闻的主题模型,kj为权重值修正向量K中的其中一个值,如何确定kj的值需根据对应关键词所在文章的用户行为决定,其中浏览行为0.2,转发行为0.5,评论行为0.3。
(7)基于上述步骤(4)(5)(6)提取的新闻特征和用户兴趣,进行新闻特征模型和用户兴趣模型的融合匹配度计算。主要是分两步进行,首先计算新闻标签模型Nt和用户兴趣关键词模型Ut的匹配度,再计算新闻主题特征模型Nl和用户兴趣主题特征模型Ul的匹配度。
计算新闻标签模型Nt和用户兴趣关键词模型Ut的匹配度θt。用公式来计算Nt和Ut的匹配程度。θt越大,Nt与Ut的匹配程度越高。
计算新闻主题特征模型Nl和用户兴趣主题特征模型Ul的匹配度Dl。用公式 计算新闻主题特征模型Nl与用户兴趣主题特征模型Ul的距离,该距离用来衡量两个主题分布之间的差异,其中pi为新闻主题特征模型Nl中的元素,qi为用户兴趣主题特征模型Ul中的元素,K为Nl和Ul中的元素个数。Dl越小,Nl与Ul的匹配程度越高。
计算新闻模型与用户模型的融合匹配度S。在上述计算匹配度θt及匹配度Dl之后,用公式S=α*θt+β*1/Dl,进行融合匹配度计算,S越大,说明匹配度越高。其中,α、β为调整系数,且α+β=1。这里取α=0.4,β=0.6。
(8)个性化新闻推荐处理。
根据上述步骤(7)新闻特征模型和用户兴趣模型的融合匹配度计算模块计算得到的相似度值,选取前10个相似度值较大的新闻建立推送列表,再加入时效性权值进行二次排序,将最后得到的新闻列表推荐给用户。时效性权值计算公式如下:
其中S为步骤(7)计算的融合相似度,ε为时效性权值调整系数,这里取0.7,t为系统当前时间,t0为新闻进入系统的时间。
按照S′值从大到小对新闻进行二次排序,得到最后的新闻推荐列表,推送给用户。
以上所述为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所做的等效结构或等效流程变换,或直接或间接运用在其他相关技术领域,均同理包括在本发明的专利保护范围内。
本发明一种自动实时新闻推荐方法的实现装置,由以下几个模块构成:
新闻抓取模块:通过爬虫工具,抓取新闻网页地址,即统一资源定位符URL。下载新闻标题及新闻内容,并将新闻存储到数据库新闻表中。
新闻预处理模块:对新闻进行分词处理,只保留名词。去掉无效新闻,并将有效新闻的分词结果存储到数据库新闻表中。
新闻模型训练模块:采用基于Gibbs Sampling的LDA算法进行主题模型的训练。建立主题模型。
新闻特征提取模块:对新闻进行建模。首先运用TF-IDF算法计算文章关键词,得到新闻标签模型Nt,即:Nt={关键词序列}。再运用步骤(2)中建立的主题模型计算新闻主题特征模型Nl,即:Nl={w1,w2,w3,…,wn},其中n为主题个数。新闻模型由新闻标签模型Nt和新闻主题特征模型Nl组成,即N={Nt,Nl}。
用户特征提取模块:进行用户特征提取,建立用户画像,初步建模。根据用户的特征,对用户的群体分成若干个先验的聚类,并赋予类别特定的初始关键词。得到用户初始兴趣关键词列表Uk={初始关键词序列}。
用户二次精细建模模块:基于用户初步建模的模型,对用户进行二次精确建模。用户兴趣模型U由用户兴趣关键词模型Ut和用户兴趣主题特征模型Ul组成,即U={Ut,Ul}。
新闻特征模型和用户兴趣模型的融合匹配度计算模块:基于上述模块提取的新闻特征和用户特征,进行新闻特征模型和用户兴趣模型的融合匹配度计算。主要是分两步进行,首先计算新闻标签模型Nt和用户兴趣关键词模型Ut的匹配度θt,再计算新闻主题特征模型Nl和用户兴趣主题特征模型Ul的匹配度Dl。计算新闻模型与用户模型的融合匹配度S。在上述计算匹配度θt及匹配度Dl之后,用公式S=α*θt+β*1/Dl,进行融合匹配度计算,S越大,说明匹配度越高。其中,α、β为调整系数,且α+β=1。
个性化新闻推荐处理模块:根据上述新闻特征模型和用户兴趣模型的融合匹配度计算模块计算得到的相似度值,选取前10个相似度值较大的新闻建立推送列表,再加入时效性权值进行二次排序,将最后得到的新闻列表推荐给用户。时效性权值计算公式如下:
其中S为步骤(7)计算的融合相似度,ε为时效性权值调整系数,t为系统当前时间,t0为新闻进入系统的时间。

Claims (7)

1.一种自动实时新闻推荐方法,其特征在于,包括以下步骤:
步骤一、新闻抓取:通过爬虫工具,抓取新闻网页地址,下载新闻标题及新闻内容,并将新闻存储到数据库新闻表中;
步骤二、新闻预处理:对新闻进行分词处理,只保留名词;去掉无效新闻,并将有效新闻的分词结果存储到数据库新闻表中;
步骤三、新闻模型训练:采用基于Gibbs Sampling的LDA算法进行主题模型的训练,建立主题模型;
步骤四、新闻特征建模:进行新闻特征提取,建立新闻特征模型,新闻特征模型由新闻标签模型Nt和新闻主题特征模型Nl组成,即N={Nt,Nl};
步骤五、用户特征初步建模:进行用户特征提取,建立用户画像,对用户特征进行初步建模;
步骤六、用户特征二次建模:基于步骤五用户特征初步建模结果,对用户特征进行二次精确建模,建立用户兴趣模型U;用户兴趣模型U由用户兴趣关键词模型Ut和用户兴趣主题特征模型Ul组成,即U={Ut,Ul};
步骤七、相似度计算:基于上述步骤四至步骤六提取的新闻特征和用户特征,进行新闻特征模型和用户兴趣模型的融合匹配度计算;
步骤八、新闻推荐。
2.如权利要求1所述的一种自动实时新闻推荐方法,其特征在于,所述步骤三新闻模型训练包括以下过程:
采用基于Gibbs Sampling的LDA算法进行主题模型的训练:先设定主题个数K,建立主题模型,即每个新闻文本在各个主题上对应的主题特征向量Tl=(w1,w2,w3,…,wk);
主题模型建立后,对建立的主题模型使用Perplexity值进行持续优化,Perplexity值计算公式为:
Perplexity值越小,则说明模型越好。
3.如权利要求1所述的一种自动实时新闻推荐方法,其特征在于,所述步骤四新闻特征建模包括以下过程:
首先运用TF-IDF算法计算新闻关键词,得到新闻标签模型Nt,即:Nt={关键词序列};
再运用所述步骤三中建立的主题模型计算新闻在主题模型上分布的新闻主题特征模型Nl,即:Nl={w1,w2,w3,…,wn},其中n为主题个数。
4.如权利要求1所述的一种自动实时新闻推荐方法,其特征在于,所述步骤五用户特征初步建模包括以下步骤:
根据用户的特征,对用户的群体分成若干个先验的聚类,并赋予每个类别特定的初始关键词,得到用户初始兴趣关键词列表Uk={初始关键词序列}。
5.如权利要求1所述的一种自动实时新闻推荐方法,其特征在于,所述步骤六用户特征二次建模包括以下过程:
1)建立用户兴趣关键词模型Ut
根据用户以往有过浏览、转发、评论行为的新闻,提取用户兴趣行为特征关键词列表Un,需设置浏览、转发、评论行为的权重值修正向量K={k1,k2,k3},且
再将用户兴趣行为特征关键词列表Un与用户初始兴趣关键词列表Uk用公式Vn=Uk∪Un进行合并,得到用户兴趣关键词列表Vn={v1,v2,v3,…,vn};
根据TF-IDF算法计算Vn中的关键词的TF-IDF值得到向量Wn={tk1,tk2,tk3,…,tkn};
根据公式wki=kj*tki计算得到权值向量Wt={wk1,wk2,wk3,…,wkn},其中n为关键词的个数,tki为TF-IDF词频向量值,kj为权重值修正向量K中的其中一个值,kj的值根据对应关键词所在文章的用户行为决定;
取Wt中权值排在前m的m个词,作为用户兴趣关键词模型Ut的关键词列表,即Ut={用户兴趣关键词}。
2)建立用户兴趣主题特征模型Ul
根据用户以往有过浏览、转发、评论行为的新闻,提取用户兴趣行为主题特征模型Ul={wu1,wu2,wu3,…,wun},其中需设置浏览、转发、评论行为的权重值修正向量K={k1,k2,k3},且
根据公式计算用户兴趣主题特征向量Ul,其中N为用户产生过行为的新闻的数量,Ni为用户产生过行为的新闻的主题模型,kj为权重值修正向量K中的其中一个值,kj的值根据对应关键词所在文章的用户行为决定。
6.如权利要求1所述的一种自动实时新闻推荐方法,其特征在于,所述步骤七相似度计算包括以下过程:
1)计算新闻标签模型Nt和用户兴趣关键词模型Ut的匹配度θt:用公式来计算Nt和Ut的匹配程度,θk越大,Nt与Ut的匹配程度越高;
2)计算新闻主题特征模型Nl和用户兴趣主题特征模型Ul的匹配度Dl:用公式 计算新闻主题特征模型Nl与用户兴趣主题特征模型Ul的距离,用来衡量两个主题分布之间的差异,其中pi为新闻主题特征模型Nl中的元素,qi为用户兴趣主题特征模型Ul中的元素,K为Nl和Ul中的元素个数,Dl越小,Nl与Ul的匹配程度越高;
计算新闻模型与用户模型的融合匹配度S:用公式S=α*θt+β*1/Dl,进行融合匹配度计算,S越大,说明匹配度越高,其中,α、β为调整系数,且α+β=1。
7.如权利要求1所述的一种自动实时新闻推荐方法,其特征在于,所述步骤八新闻推荐包括以下过程:
根据所述步骤七新闻特征模型和用户兴趣模型的融合匹配度计算得到的相似度值,选取前若干个相似度值较大的新闻建立推送列表,再加入时效性权值进行二次排序,将最后得到的新闻列表推荐给用户;
时效性权值计算公式如下:
其中S为所述步骤七计算的融合相似度,ε为时效性权值调整系数,t为系统当前时间,t0为新闻进入系统的时间。
CN201710345567.6A 2017-05-17 2017-05-17 一种自动实时新闻推荐方法 Pending CN107025310A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710345567.6A CN107025310A (zh) 2017-05-17 2017-05-17 一种自动实时新闻推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710345567.6A CN107025310A (zh) 2017-05-17 2017-05-17 一种自动实时新闻推荐方法

Publications (1)

Publication Number Publication Date
CN107025310A true CN107025310A (zh) 2017-08-08

Family

ID=59528592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710345567.6A Pending CN107025310A (zh) 2017-05-17 2017-05-17 一种自动实时新闻推荐方法

Country Status (1)

Country Link
CN (1) CN107025310A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562939A (zh) * 2017-09-21 2018-01-09 深圳市傲天科技股份有限公司 垂直领域新闻推荐方法、装置及可读储存介质
CN107609123A (zh) * 2017-09-14 2018-01-19 西安领讯卓越信息技术有限公司 一种基于新闻推荐系统聚合新闻呈现的方法
CN107679916A (zh) * 2017-10-12 2018-02-09 北京京东尚科信息技术有限公司 用于获取用户兴趣度的方法及装置
CN107908669A (zh) * 2017-10-17 2018-04-13 广东广业开元科技有限公司 一种基于并行lda的大数据新闻推荐方法、系统及装置
CN107944063A (zh) * 2018-01-16 2018-04-20 马上消费金融股份有限公司 一种基于主题模型与用户群组的新闻推荐方法及系统
CN108133011A (zh) * 2017-12-22 2018-06-08 新奥(中国)燃气投资有限公司 一种资讯推送方法及装置
CN108399565A (zh) * 2017-10-09 2018-08-14 平安科技(深圳)有限公司 金融产品推荐装置、方法及计算机可读存储介质
CN108763207A (zh) * 2018-05-22 2018-11-06 南京大学 一种lda主题模型优化采样方法
CN109033241A (zh) * 2018-07-04 2018-12-18 北京第视频科学技术研究院有限公司 新闻推荐方法、装置及电子设备
CN109087162A (zh) * 2018-07-05 2018-12-25 杭州朗和科技有限公司 数据处理方法、系统、介质和计算设备
CN109325175A (zh) * 2018-08-23 2019-02-12 广东工业大学 融合微博兴趣挖掘的新闻推送方法、装置及设备
CN109325179A (zh) * 2018-09-17 2019-02-12 青岛海信网络科技股份有限公司 一种内容推广的方法及装置
CN109376302A (zh) * 2018-10-15 2019-02-22 上海基分文化传播有限公司 一种新闻推荐系统和方法
CN109819002A (zh) * 2017-11-22 2019-05-28 腾讯科技(深圳)有限公司 数据推送方法和装置、存储介质及电子装置
CN109992602A (zh) * 2019-04-02 2019-07-09 海南颖川科技有限公司 少儿数字阅读指引设备
CN110430477A (zh) * 2019-08-12 2019-11-08 广州华多网络科技有限公司 直播内容的推荐方法、装置、计算机设备和存储介质
CN110474944A (zh) * 2018-05-10 2019-11-19 腾讯科技(深圳)有限公司 网络信息的处理方法、装置及存储介质
CN110490547A (zh) * 2019-08-13 2019-11-22 北京航空航天大学 办公系统智能化技术
CN111191126A (zh) * 2019-12-24 2020-05-22 绍兴市上虞区理工高等研究院 一种基于关键词的科技成果精准推送方法及装置
CN111680219A (zh) * 2020-06-09 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN111858915A (zh) * 2020-08-07 2020-10-30 成都理工大学 基于标签相似度的信息推荐方法及系统
CN112231593A (zh) * 2020-12-15 2021-01-15 上海朝阳永续信息技术股份有限公司 一种金融资讯智能推荐系统
CN112597395A (zh) * 2020-12-28 2021-04-02 上海众源网络有限公司 对象推荐方法、装置、设备及存储介质
CN112685643A (zh) * 2021-01-12 2021-04-20 上海观察者信息技术有限公司 一种新闻信息的推送方法、装置、介质及电子设备
CN109543111B (zh) * 2018-11-28 2021-09-21 广州虎牙信息科技有限公司 推荐信息筛选方法、装置、存储介质及服务器
CN114298118A (zh) * 2020-09-28 2022-04-08 腾讯科技(深圳)有限公司 一种基于深度学习的数据处理方法、相关设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN105183833A (zh) * 2015-08-31 2015-12-23 天津大学 一种基于用户模型的微博文本推荐方法及其推荐装置
CN105227971A (zh) * 2015-07-09 2016-01-06 传成文化传媒(上海)有限公司 一种酒店用电视的信息推荐方法及系统
KR20160085004A (ko) * 2015-01-07 2016-07-15 한화테크윈 주식회사 중복 이미지 파일 검색 방법 및 장치
CN106599174A (zh) * 2016-12-12 2017-04-26 国云科技股份有限公司 一种新闻实时推荐系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
KR20160085004A (ko) * 2015-01-07 2016-07-15 한화테크윈 주식회사 중복 이미지 파일 검색 방법 및 장치
CN105227971A (zh) * 2015-07-09 2016-01-06 传成文化传媒(上海)有限公司 一种酒店用电视的信息推荐方法及系统
CN105183833A (zh) * 2015-08-31 2015-12-23 天津大学 一种基于用户模型的微博文本推荐方法及其推荐装置
CN106599174A (zh) * 2016-12-12 2017-04-26 国云科技股份有限公司 一种新闻实时推荐系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐凯: "基于主题抽取演化模型的实时新闻推荐系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
项亮: "《推荐系统实践》", 30 June 2012, 北京:人民邮电出版社 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609123A (zh) * 2017-09-14 2018-01-19 西安领讯卓越信息技术有限公司 一种基于新闻推荐系统聚合新闻呈现的方法
CN107562939A (zh) * 2017-09-21 2018-01-09 深圳市傲天科技股份有限公司 垂直领域新闻推荐方法、装置及可读储存介质
CN108399565A (zh) * 2017-10-09 2018-08-14 平安科技(深圳)有限公司 金融产品推荐装置、方法及计算机可读存储介质
CN107679916A (zh) * 2017-10-12 2018-02-09 北京京东尚科信息技术有限公司 用于获取用户兴趣度的方法及装置
CN107908669A (zh) * 2017-10-17 2018-04-13 广东广业开元科技有限公司 一种基于并行lda的大数据新闻推荐方法、系统及装置
CN109819002A (zh) * 2017-11-22 2019-05-28 腾讯科技(深圳)有限公司 数据推送方法和装置、存储介质及电子装置
CN109819002B (zh) * 2017-11-22 2021-06-08 腾讯科技(深圳)有限公司 数据推送方法和装置、存储介质及电子装置
CN108133011A (zh) * 2017-12-22 2018-06-08 新奥(中国)燃气投资有限公司 一种资讯推送方法及装置
CN108133011B (zh) * 2017-12-22 2022-05-24 新奥(中国)燃气投资有限公司 一种资讯推送方法及装置
CN107944063A (zh) * 2018-01-16 2018-04-20 马上消费金融股份有限公司 一种基于主题模型与用户群组的新闻推荐方法及系统
CN110474944A (zh) * 2018-05-10 2019-11-19 腾讯科技(深圳)有限公司 网络信息的处理方法、装置及存储介质
CN108763207A (zh) * 2018-05-22 2018-11-06 南京大学 一种lda主题模型优化采样方法
CN109033241A (zh) * 2018-07-04 2018-12-18 北京第视频科学技术研究院有限公司 新闻推荐方法、装置及电子设备
CN109087162A (zh) * 2018-07-05 2018-12-25 杭州朗和科技有限公司 数据处理方法、系统、介质和计算设备
CN109325175A (zh) * 2018-08-23 2019-02-12 广东工业大学 融合微博兴趣挖掘的新闻推送方法、装置及设备
CN109325179A (zh) * 2018-09-17 2019-02-12 青岛海信网络科技股份有限公司 一种内容推广的方法及装置
CN109325179B (zh) * 2018-09-17 2020-12-04 青岛海信网络科技股份有限公司 一种内容推广的方法及装置
CN109376302A (zh) * 2018-10-15 2019-02-22 上海基分文化传播有限公司 一种新闻推荐系统和方法
CN109543111B (zh) * 2018-11-28 2021-09-21 广州虎牙信息科技有限公司 推荐信息筛选方法、装置、存储介质及服务器
CN109992602A (zh) * 2019-04-02 2019-07-09 海南颖川科技有限公司 少儿数字阅读指引设备
CN110430477A (zh) * 2019-08-12 2019-11-08 广州华多网络科技有限公司 直播内容的推荐方法、装置、计算机设备和存储介质
CN110490547A (zh) * 2019-08-13 2019-11-22 北京航空航天大学 办公系统智能化技术
CN111191126B (zh) * 2019-12-24 2023-11-03 绍兴市上虞区理工高等研究院 一种基于关键词的科技成果精准推送方法及装置
CN111191126A (zh) * 2019-12-24 2020-05-22 绍兴市上虞区理工高等研究院 一种基于关键词的科技成果精准推送方法及装置
CN111680219B (zh) * 2020-06-09 2023-10-20 深圳市雅阅科技有限公司 内容推荐方法、装置、设备及可读存储介质
CN111680219A (zh) * 2020-06-09 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN111858915A (zh) * 2020-08-07 2020-10-30 成都理工大学 基于标签相似度的信息推荐方法及系统
CN114298118A (zh) * 2020-09-28 2022-04-08 腾讯科技(深圳)有限公司 一种基于深度学习的数据处理方法、相关设备及存储介质
CN114298118B (zh) * 2020-09-28 2024-02-09 腾讯科技(深圳)有限公司 一种基于深度学习的数据处理方法、相关设备及存储介质
WO2022126873A1 (zh) * 2020-12-15 2022-06-23 上海朝阳永续信息技术股份有限公司 一种金融资讯智能推荐系统
CN112231593A (zh) * 2020-12-15 2021-01-15 上海朝阳永续信息技术股份有限公司 一种金融资讯智能推荐系统
CN112597395A (zh) * 2020-12-28 2021-04-02 上海众源网络有限公司 对象推荐方法、装置、设备及存储介质
CN112685643B (zh) * 2021-01-12 2021-10-22 上海观察者信息技术有限公司 一种新闻信息的推送方法、装置、介质及电子设备
CN112685643A (zh) * 2021-01-12 2021-04-20 上海观察者信息技术有限公司 一种新闻信息的推送方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
CN107025310A (zh) 一种自动实时新闻推荐方法
Cao et al. A cross-media public sentiment analysis system for microblog
CN103324665B (zh) 一种基于微博的热点信息提取的方法和装置
CN107133277B (zh) 一种基于动态主题模型和矩阵分解的旅游景点推荐方法
CN109740152B (zh) 文本类目的确定方法、装置、存储介质和计算机设备
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN106815297A (zh) 一种学术资源推荐服务系统与方法
CN110362740B (zh) 一种水利门户信息混合推荐方法
CN103744981A (zh) 一种基于网站内容用于网站自动分类分析的系统
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN111309936A (zh) 一种电影用户画像的构建方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN107577782B (zh) 一种基于异质数据的人物相似度刻画方法
CN108021715B (zh) 基于语义结构特征分析的异构标签融合系统
CN103246687A (zh) 基于特征信息的Blog自动摘要方法
CN106897437B (zh) 一种知识系统的高阶规则多分类方法及其系统
CN103886020A (zh) 一种房地产信息快速搜索方法
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
CN112036659B (zh) 基于组合策略的社交网络媒体信息流行度预测方法
Rosanensi et al. Analysis sentiment and tourist response to rinjani mountain tour based on comments from photo upload in instagram
Abbas Improved context-aware youtube recommender system with user feedback analysis
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments
Ayoobkhan et al. Web page recommendation system by integrating ontology and stemming algorithm
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
CN105468780A (zh) 一种微博文本中产品名实体的规范化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170808

RJ01 Rejection of invention patent application after publication