CN112182351A - 一种基于多特征融合的新闻推荐方法及装置 - Google Patents
一种基于多特征融合的新闻推荐方法及装置 Download PDFInfo
- Publication number
- CN112182351A CN112182351A CN202011042260.7A CN202011042260A CN112182351A CN 112182351 A CN112182351 A CN 112182351A CN 202011042260 A CN202011042260 A CN 202011042260A CN 112182351 A CN112182351 A CN 112182351A
- Authority
- CN
- China
- Prior art keywords
- news
- recommended
- user
- target user
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 197
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004883 computer application Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于多特征融合的新闻推荐方法,该方法包括:在达到向目标用户进行新闻推荐的触发条件时,获得待推荐新闻集合中每条待推荐新闻的多特征向量;确定目标用户的用户画像;基于用户画像与待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果;基于目标用户的当前浏览新闻与待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果;根据第一推荐结果和第二推荐结果,确定最终推荐结果,并推荐给目标用户。应用本申请所提供的技术方案,推荐给用户的新闻更符合用户的兴趣,更有针对性,提升了用户的浏览体验。本申请还公开了一种基于多特征融合的新闻推荐装置,具有相应技术效果。
Description
技术领域
本申请涉及计算机应用技术领域,特别是涉及一种基于多特征融合的新闻推荐方法及装置。
背景技术
随着计算机技术和互联网技术的快速发展,网络的使用频率越来越高,网络中各种新闻也越来越多,网络新闻具有更强的时效性,能够给人们带来更多便利,人们也更倾向于在网络中浏览各种新闻。
目前,各新闻网站多是将所有新闻罗列出来供用户浏览。但是不同用户的兴趣爱好可能不同,对于新闻的兴趣点也就不同。针对于每个用户而言,大量的新闻可能都毫无用处。用户在进行新闻浏览时需要耗费较多时间和较大精力去识别哪些新闻是自己需要的、感兴趣的,哪些新闻是无用的。使得用户的新闻浏览体验较差。
综上所述,如何向用户推荐其感兴趣的新闻,提升用户的浏览体验,是目前本领域技术人员急需解决的技术问题。
发明内容
本申请的目的是提供一种基于多特征融合的新闻推荐方法及装置,以有针对性地向用户推荐其感兴趣的新闻,提升用户的浏览体验。
为解决上述技术问题,本申请提供如下技术方案:
一种基于多特征融合的新闻推荐方法,包括:
在达到向目标用户进行新闻推荐的触发条件时,获得待推荐新闻集合中每条待推荐新闻的多特征向量,所述多特征向量包括主题特征向量、关键词向量、标题与摘要特征向量;
确定所述目标用户的用户画像;
基于所述用户画像与所述待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果;
基于所述目标用户的当前浏览新闻与所述待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果;
根据所述第一推荐结果和所述第二推荐结果,确定最终推荐结果,并推荐给所述目标用户。
在本申请的一种具体实施方式中,所述确定所述目标用户的用户画像,包括:
获得所述目标用户的历史浏览新闻集合的K个主题特征向量,所述历史浏览新闻集合中包含K条历史浏览新闻,每条历史浏览新闻具有相应的主题特征向量,K为正整数;
基于所述历史浏览新闻集合的K个主题特征向量,形成所述目标用户的用户画像。
在本申请的一种具体实施方式中,所述基于所述历史浏览新闻集合的K个主题特征向量,形成所述目标用户的用户画像,包括:
将所述历史浏览新闻集合的K个主题特征向量进行求和处理,获得所述历史浏览新闻集合的总主题特征向量;
将所述历史浏览新闻集合的总主题特征向量的每一维除以K,获得所述历史浏览新闻集合的平均化主题特征向量;
将所述平均化主题特征向量确定为所述目标用户的用户画像。
在本申请的一种具体实施方式中,所述获得所述目标用户的历史浏览新闻集合的K个主题特征向量,包括:
在数据库中查询获得所述目标用户的历史浏览新闻集合的K个主题特征向量。
在本申请的一种具体实施方式中,所述确定所述目标用户的用户画像,包括:
如果所述目标用户没有历史浏览新闻,则初始化一个均值向量;
将所述均值向量确定为所述目标用户的用户画像。
在本申请的一种具体实施方式中,所述基于所述用户画像与所述待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果,包括:
分别计算所述待推荐新闻集合中每条待推荐新闻的主题特征向量与所述用户画像的点积;
根据点积结果确定第一推荐结果。
在本申请的一种具体实施方式中,所述基于所述目标用户的当前浏览新闻与所述待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果,包括:
确定所述目标用户的当前浏览新闻的关键词向量、标题与摘要特征向量;
对所述当前浏览新闻的关键词向量与所述待推荐新闻集合中每条待推荐新闻的关键词向量进行相似度计算;
对所述当前浏览新闻的标题与摘要特征向量与所述待推荐新闻集合中每条待推荐新闻的关键词向量进行相似度计算;
根据相似度计算结果,确定第二推荐结果。
在本申请的一种具体实施方式中,所述根据所述第一推荐结果和所述第二推荐结果,确定最终推荐结果,包括:
将所述第一推荐结果和所述第二推荐结果中浏览量大于预设浏览量阈值的新闻,确定为最终推荐结果。
在本申请的一种具体实施方式中,所述浏览量为所述目标用户所属用户群的浏览量。
一种基于多特征融合的新闻推荐装置,包括:
多特征向量获得模块,用于在达到向目标用户进行新闻推荐的触发条件时,获得待推荐新闻集合中每条待推荐新闻的多特征向量,所述多特征向量包括主题特征向量、关键词向量、标题与摘要特征向量;
用户画像确定模块,用于确定所述目标用户的用户画像;
第一推荐结果确定模块,用于基于所述用户画像与所述待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果;
第二推荐结果确定模块,用于基于所述目标用户的当前浏览新闻与所述待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果;
新闻推荐模块,用于根据所述第一推荐结果和所述第二推荐结果,确定最终推荐结果,并推荐给所述目标用户。
应用本申请实施例所提供的技术方案,在达到向目标用户进行新闻推荐的触发条件时,获得待推荐新闻集合中每条待推荐新闻的多特征向量,确定目标用户的用户画像,基于用户画像与待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果,基于目标用户的当前浏览新闻与待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果,然后根据第一推荐结果和第二推荐结果,确定出最终推荐结果,推荐给目标用户。也就是说,最终推荐结果中不仅包含与用户的用户画像相匹配的推荐结果,还包含与用户的当前浏览新闻相匹配的推荐结果,更符合用户的兴趣,更有针对性,使得用户在浏览新闻时不需要耗费较多时间和精力进行筛选即可浏览到自己感兴趣的新闻,提升了用户的浏览体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种基于多特征融合的新闻推荐方法的实施流程图;
图2为本申请实施例中第一推荐结果确定过程示意图;
图3为本申请实施例中一种基于多特征融合的新闻推荐装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1所示,为本申请实施例所提供的一种基于多特征融合的新闻推荐方法的实施流程图,该方法可以包括以下步骤:
S110:在达到向目标用户进行新闻推荐的触发条件时,获得待推荐新闻集合中每条待推荐新闻的多特征向量。
多特征向量包括主题特征向量、关键词向量、标题与摘要特征向量。
在本申请实施例中,可以预先设定向用户进行新闻推荐的触发条件。如当检测到用户进入新闻展示界面时,认为达到了向其进行新闻推荐的触发条件,或者,在检测到用户持续一段时间对于每条新闻的浏览时长小于设定阈值时,认为用户一直没有浏览到感兴趣的新闻,可以认为达到了向其进行新闻推荐的触发条件,或者,当检测到用户发出了推荐指令时,认为达到了向其进行新闻推荐的触发条件。该触发条件可以根据实际情况进行设定和调整。
目标用户为进行新闻浏览的任意一个用户。
在达到向目标用户进行新闻推荐的触发条件时,可以先获得待推荐新闻集合中每条待推荐新闻的多特征向量。
待推荐新闻集合中包含多条待推荐新闻,因为新闻具有较强的时效性,可以将距离当前时刻较近一段时间的新闻作为待推荐新闻。如将当天新闻作为待推荐新闻,或者将距离当前时刻一小时的新闻作为待推荐新闻。待推荐新闻集合中不包含目标用户的历史浏览新闻,以避免向目标用户推荐其已经浏览过的新闻。
在本申请实施例中,可以通过网络爬虫等技术获得各个新闻网站中的新闻,将获得的新闻加入到新闻库中。在需要向目标用户进行新闻推荐时,可以在新闻库中确定出待推荐新闻,然后计算得到每条待推荐新闻的多特征向量。
还可以针对新闻库中的每条新闻,先确定该条新闻的多特征向量,并保存在数据库中。这样在达到向目标用户进行新闻推荐的触发条件时,可以直接从数据库中查找得到待推荐新闻集合中每条待推荐新闻的多特征向量。提高推荐效率。
多特征向量可以包括主题特征向量、关键词向量、标题与摘要特征向量。
其中,主题特征向量可以通过LDA模型获得。在实际应用中,可以将新闻语料库作为模型输入,训练一个LDA模型。训练完成后,将一条新闻的文本输入到该LDA模型中可以输出其对应的主题特征向量。新闻语料库可以是已有的语料库,还可以是对新闻库中的部分新闻进行预处理后获得的。
对于关键词向量,可以先采用TF-IDF算法抽取新闻库中所有新闻的关键词,并将所有关键词形成一个关键词空间,再针对新闻库中的每一条新闻,抽取其关键词向量。关键词向量的构成方式如下:关键词向量的长度等于先前生成的关键词空间中所有关键词的总数,并且关键词向量的每一个维度与关键词一一对应,每一个维度的值即为新闻中该关键词出现的频数。对于每一条新闻都可以形成这样一个关键词向量。
对于标题与摘要特征向量,可以先针对新闻库中的每一条新闻,对其标题和摘要进行分词处理,形成一个分词集合。对于分词集合中的每一个单词,查找其预先训练好的词向量,并将这些词向量累加后求平均化向量,根据分词集合和词向量形成一个关于标题与摘要的特征向量。
S120:确定目标用户的用户画像。
在达到向目标用户进行新闻推荐的触发条件时,可以根据目标用户的自身特点,确定目标用户的用户画像。
在本申请的一种具体实施方式中,步骤S120可以包括以下步骤:
第一个步骤:获得目标用户的历史浏览新闻集合的K个主题特征向量,历史浏览新闻集合中包含K条历史浏览新闻,每条历史浏览新闻具有相应的主题特征向量,K为正整数;
第二个步骤:基于历史浏览新闻集合的K个主题特征向量,形成目标用户的用户画像。
为便于描述,将上述两个步骤结合起来进行说明。
在实际应用中,通过目标用户的登录信息或者使用的终端信息等,可以确定目标用户的历史浏览新闻。在要对目标用户进行新闻推荐时,可以获得目标用户的历史浏览新闻集合的K个主题特征向量。历史浏览新闻集合中包含K条历史浏览新闻,每条历史浏览新闻具有相应的主题特征向量,K为正整数。历史浏览集合中包含的K条历史浏览新闻可以是目标用户浏览的距离当前时刻最近的K条新闻,这样可以使得最终推荐结果更符合目标用户的近期兴趣倾向。可以在数据库中查询获得目标用户的历史浏览新闻集合的K个主题特征向量。
基于历史浏览新闻集合的K个主题特征向量,可以形成目标用户的用户画像。具体的,可以先将历史浏览新闻集合的K个主题特征向量进行求和处理,获得历史浏览新闻集合的总主题特征向量,再将历史浏览新闻集合的总主题特征向量的每一维除以K,获得历史浏览新闻集合的平均化主题特征向量,最后将平均化主题特征向量确定为目标用户的用户画像。
在本申请的另一种具体实施方式中,步骤S120可以包括以下步骤:
第一个步骤:如果目标用户没有历史浏览新闻,则初始化一个均值向量;
第二个步骤:将均值向量确定为目标用户的用户画像。
为便于描述,将上述两个步骤结合起来进行说明。
在实际应用中,如果目标用户为新用户,如新注册用户,或者使用新终端进行新闻浏览的用户,则可能检测不到其历史浏览新闻。如果目标用户没有历史浏览新闻,则可以初始化一个均值向量,使其每一维都相等,将该均值向量确定为目标用户的用户画像。
S130:基于用户画像与待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果。
确定目标用户的用户画像后,可以基于用户画像与待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果。
具体的,可以分别计算待推荐新闻集合中每条待推荐新闻的主题特征向量与用户画像的点积,然后根据点积结果确定第一推荐结果。第一推荐结果中包含若干条待推荐新闻。即取出待推荐新闻集合中每条待推荐新闻的主题特征向量,依次将这些主题特征向量与目标用户的用户画像求点积,或者采用其他向量相似度衡量算法,根据点积结果可以确定出第一推荐结果。点积结果越大,表示相应新闻越符合目标用户的兴趣爱好。可以使用排序函数将点积结果按照从大到小的顺序进行排序,将前M个点积结果对应的待推荐新闻确定为第一推荐结果。
如图2所示,通过LDA模型可以得到待推荐新闻集合中的每条待推荐新闻的主题特征向量,即主题分布,基于用户浏览历史即用户的历史浏览新闻集合的多个主题特征向量,对历史信息平均后,可以形成用户的用户画像,对待推荐新闻的主题特征向量和用户画像进行相似度衡量,可以得到相应的第一推荐结果。
这里从用户因素进行考虑,得到用户对特定新闻的喜好,使得推荐结果为用户更愿意浏览的新闻,可以帮助用户解决信息过载问题。
S140:基于目标用户的当前浏览新闻与待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果。
通过监测可以获得目标用户的当前浏览新闻。目标用户当前正在浏览的新闻可能更符合目标用户的兴趣。可以基于目标用户的当前浏览新闻与待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果。第二推荐结果中包含若干条待推荐新闻。即进行新闻文本特征的相关推荐,通过抽取新闻文本的关键词、标题和摘要特征,来衡量新闻之间的相关性大小,以将与当前浏览新闻最相关的新闻推荐给目标用户。
在本申请的一种具体实施方式中,该步骤可以包括以下步骤:
步骤一:确定目标用户的当前浏览新闻的关键词向量、标题与摘要特征向量;
步骤二:对当前浏览新闻的关键词向量与待推荐新闻集合中每条待推荐新闻的关键词向量进行相似度计算;
步骤三:对当前浏览新闻的标题与摘要特征向量与待推荐新闻集合中每条待推荐新闻的关键词向量进行相似度计算;
步骤四:根据相似度计算结果,确定第二推荐结果。
为便于描述,将上述四个步骤结合起来进行说明。
首先确定目标用户的当前浏览新闻的关键词向量、标题与摘要特征向量。对当前浏览新闻的关键词向量、标题与摘要特征向量的确定方式在前面已经描述,不再赘述。
对当前浏览新闻的关键词向量与待推荐新闻集合中每条待推荐新闻的关键词向量进行相似度计算,再对当前浏览新闻的标题与摘要特征向量与待推荐新闻集合中每条待推荐新闻的关键词向量进行相似度计算,分别得到相似度计算结果,根据相似度计算结果,可以确定第二推荐结果。
具体的,可以将相似度大于预设相似度阈值的待推荐新闻加入到第二推荐结果中。
这里从新闻本身的文本特征考虑,通过抽取新闻的文本特征向量,将新闻映射到高维空间中,并在此空间中对每条新闻进行相似度衡量,相似性越大的新闻代表其相关性越强,越容易符合用户期望。
S150:根据第一推荐结果和第二推荐结果,确定最终推荐结果,并推荐给目标用户。
第一推荐结果和第二推荐结果中可能存在重复的待推荐新闻,在获得第一推荐结果和第二推荐结果后,可以先对第一推荐结果和第二推荐结果进行去重处理,将去重处理后的第一推荐结果和第二推荐结果的总和确定为最终推荐结果,将最终推荐结果推荐给目标用户。
在本申请的一种具体实施方式中,还可以将第一推荐结果和第二推荐结果中浏览量大于预设浏览量阈值的新闻,确定为最终推荐结果。在获得的新闻库中可以记录每条新闻的浏览量,该浏览量可以是一天、一周或一个月的浏览量。对于一条新闻而言,该条新闻的浏览量越大,表示对该条新闻感兴趣的用户越多,目标用户对该条新闻的兴趣也可能较大。将第一推荐结果和第二推荐结果中浏览量大于预设浏览量阈值的新闻确定为最终推荐结果推荐给目标用户,可能更符合用户兴趣。
在本申请实施例中,还可以对用户进行划分和聚类,如按照年龄、学历、历史浏览记录等进行聚类。可以将每个用户归类到相应的用户群中,同一用户群中的用户都有着相似的兴趣爱好。在根据第一推荐结果和第二推荐结果确定最终推荐结果时,可以将第一推荐结果和第二推荐结果中目标用户所属用户群的浏览量大于预设浏览量阈值的新闻,确定为最终推荐结果。即浏览量为目标用户所属用户群的浏览量。
应用本申请实施例所提供的方法,在达到向目标用户进行新闻推荐的触发条件时,获得待推荐新闻集合中每条待推荐新闻的多特征向量,确定目标用户的用户画像,基于用户画像与待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果,基于目标用户的当前浏览新闻与待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果,然后根据第一推荐结果和第二推荐结果,确定出最终推荐结果,推荐给目标用户。也就是说,最终推荐结果中不仅包含与用户的用户画像相匹配的推荐结果,还包含与用户的当前浏览新闻相匹配的推荐结果,更符合用户的兴趣,更有针对性,使得用户在浏览新闻时不需要耗费较多时间和精力进行筛选即可浏览到自己感兴趣的新闻,提升了用户的浏览体验。
相应于上面的方法实施例,本申请实施例还提供了一种基于多特征融合的新闻推荐装置,下文描述的基于多特征融合的新闻推荐装置与上文描述的基于多特征融合的新闻推荐方法可相互对应参照。
参见图3所示,该装置可以包括以下模块:
多特征向量获得模块310,用于在达到向目标用户进行新闻推荐的触发条件时,获得待推荐新闻集合中每条待推荐新闻的多特征向量,多特征向量包括主题特征向量、关键词向量、标题与摘要特征向量;
用户画像确定模块320,用于确定目标用户的用户画像;
第一推荐结果确定模块330,用于基于用户画像与待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果;
第二推荐结果确定模块340,用于基于目标用户的当前浏览新闻与待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果;
新闻推荐模块350,用于根据第一推荐结果和第二推荐结果,确定最终推荐结果,并推荐给目标用户。
应用本申请实施例所提供的装置,在达到向目标用户进行新闻推荐的触发条件时,获得待推荐新闻集合中每条待推荐新闻的多特征向量,确定目标用户的用户画像,基于用户画像与待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果,基于目标用户的当前浏览新闻与待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果,然后根据第一推荐结果和第二推荐结果,确定出最终推荐结果,推荐给目标用户。也就是说,最终推荐结果中不仅包含与用户的用户画像相匹配的推荐结果,还包含与用户的当前浏览新闻相匹配的推荐结果,更符合用户的兴趣,更有针对性,使得用户在浏览新闻时不需要耗费较多时间和精力进行筛选即可浏览到自己感兴趣的新闻,提升了用户的浏览体验。
在本申请的一种具体实施方式中,用户画像确定模块320,用于:
获得目标用户的历史浏览新闻集合的K个主题特征向量,历史浏览新闻集合中包含K条历史浏览新闻,每条历史浏览新闻具有相应的主题特征向量,K为正整数;
基于历史浏览新闻集合的K个主题特征向量,形成目标用户的用户画像。
在本申请的一种具体实施方式中,用户画像确定模块320,用于:
将历史浏览新闻集合的K个主题特征向量进行求和处理,获得历史浏览新闻集合的总主题特征向量;
将历史浏览新闻集合的总主题特征向量的每一维除以K,获得历史浏览新闻集合的平均化主题特征向量;
将平均化主题特征向量确定为目标用户的用户画像。
在本申请的一种具体实施方式中,用户画像确定模块320,用于:
在数据库中查询获得目标用户的历史浏览新闻集合的K个主题特征向量。
在本申请的一种具体实施方式中,用户画像确定模块320,用于:
如果目标用户没有历史浏览新闻,则初始化一个均值向量;
将均值向量确定为目标用户的用户画像。
在本申请的一种具体实施方式中,第一推荐结果确定模块330,用于:
分别计算待推荐新闻集合中每条待推荐新闻的主题特征向量与用户画像的点积;
根据点积结果确定第一推荐结果。
在本申请的一种具体实施方式中,第二推荐结果确定模块340,用于:
确定目标用户的当前浏览新闻的关键词向量、标题与摘要特征向量;
对当前浏览新闻的关键词向量与待推荐新闻集合中每条待推荐新闻的关键词向量进行相似度计算;
对当前浏览新闻的标题与摘要特征向量与待推荐新闻集合中每条待推荐新闻的关键词向量进行相似度计算;
根据相似度计算结果,确定第二推荐结果。
在本申请的一种具体实施方式中,新闻推荐模块350,用于:
将第一推荐结果和第二推荐结果中浏览量大于预设浏览量阈值的新闻,确定为最终推荐结果。
在本申请的一种具体实施方式中,浏览量为目标用户所属用户群的浏览量。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种基于多特征融合的新闻推荐方法,其特征在于,包括:
在达到向目标用户进行新闻推荐的触发条件时,获得待推荐新闻集合中每条待推荐新闻的多特征向量,所述多特征向量包括主题特征向量、关键词向量、标题与摘要特征向量;
确定所述目标用户的用户画像;
基于所述用户画像与所述待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果;
基于所述目标用户的当前浏览新闻与所述待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果;
根据所述第一推荐结果和所述第二推荐结果,确定最终推荐结果,并推荐给所述目标用户。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标用户的用户画像,包括:
获得所述目标用户的历史浏览新闻集合的K个主题特征向量,所述历史浏览新闻集合中包含K条历史浏览新闻,每条历史浏览新闻具有相应的主题特征向量,K为正整数;
基于所述历史浏览新闻集合的K个主题特征向量,形成所述目标用户的用户画像。
3.根据权利要求2所述的方法,其特征在于,所述基于所述历史浏览新闻集合的K个主题特征向量,形成所述目标用户的用户画像,包括:
将所述历史浏览新闻集合的K个主题特征向量进行求和处理,获得所述历史浏览新闻集合的总主题特征向量;
将所述历史浏览新闻集合的总主题特征向量的每一维除以K,获得所述历史浏览新闻集合的平均化主题特征向量;
将所述平均化主题特征向量确定为所述目标用户的用户画像。
4.根据权利要求2所述的方法,其特征在于,所述获得所述目标用户的历史浏览新闻集合的K个主题特征向量,包括:
在数据库中查询获得所述目标用户的历史浏览新闻集合的K个主题特征向量。
5.根据权利要求1所述的方法,其特征在于,所述确定所述目标用户的用户画像,包括:
如果所述目标用户没有历史浏览新闻,则初始化一个均值向量;
将所述均值向量确定为所述目标用户的用户画像。
6.根据权利要求1所述的方法,其特征在于,所述基于所述用户画像与所述待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果,包括:
分别计算所述待推荐新闻集合中每条待推荐新闻的主题特征向量与所述用户画像的点积;
根据点积结果确定第一推荐结果。
7.根据权利要求1所述的方法,其特征在于,所述基于所述目标用户的当前浏览新闻与所述待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果,包括:
确定所述目标用户的当前浏览新闻的关键词向量、标题与摘要特征向量;
对所述当前浏览新闻的关键词向量与所述待推荐新闻集合中每条待推荐新闻的关键词向量进行相似度计算;
对所述当前浏览新闻的标题与摘要特征向量与所述待推荐新闻集合中每条待推荐新闻的关键词向量进行相似度计算;
根据相似度计算结果,确定第二推荐结果。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一推荐结果和所述第二推荐结果,确定最终推荐结果,包括:
将所述第一推荐结果和所述第二推荐结果中浏览量大于预设浏览量阈值的新闻,确定为最终推荐结果。
9.根据权利要求8所述的方法,其特征在于,所述浏览量为所述目标用户所属用户群的浏览量。
10.一种基于多特征融合的新闻推荐装置,其特征在于,包括:
多特征向量获得模块,用于在达到向目标用户进行新闻推荐的触发条件时,获得待推荐新闻集合中每条待推荐新闻的多特征向量,所述多特征向量包括主题特征向量、关键词向量、标题与摘要特征向量;
用户画像确定模块,用于确定所述目标用户的用户画像;
第一推荐结果确定模块,用于基于所述用户画像与所述待推荐新闻集合中每条待推荐新闻的主题特征向量,确定第一推荐结果;
第二推荐结果确定模块,用于基于所述目标用户的当前浏览新闻与所述待推荐新闻集合中每条待推荐新闻的关键词向量、标题与摘要特征向量,确定第二推荐结果;
新闻推荐模块,用于根据所述第一推荐结果和所述第二推荐结果,确定最终推荐结果,并推荐给所述目标用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011042260.7A CN112182351A (zh) | 2020-09-28 | 2020-09-28 | 一种基于多特征融合的新闻推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011042260.7A CN112182351A (zh) | 2020-09-28 | 2020-09-28 | 一种基于多特征融合的新闻推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112182351A true CN112182351A (zh) | 2021-01-05 |
Family
ID=73944557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011042260.7A Pending CN112182351A (zh) | 2020-09-28 | 2020-09-28 | 一种基于多特征融合的新闻推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182351A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822737A (zh) * | 2021-03-30 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 信息推送方法、装置、计算机系统及存储介质 |
CN114817753A (zh) * | 2022-06-29 | 2022-07-29 | 京东方艺云(杭州)科技有限公司 | 一种艺术画作的推荐方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN102929928A (zh) * | 2012-09-21 | 2013-02-13 | 北京格致璞科技有限公司 | 基于多维相似度的个性化新闻推荐方法 |
US20150262069A1 (en) * | 2014-03-11 | 2015-09-17 | Delvv, Inc. | Automatic topic and interest based content recommendation system for mobile devices |
KR20150114087A (ko) * | 2014-03-31 | 2015-10-12 | 한양대학교 산학협력단 | 업데이트된 뉴스 콘텐츠 제공 방법 및 장치 |
CN109325175A (zh) * | 2018-08-23 | 2019-02-12 | 广东工业大学 | 融合微博兴趣挖掘的新闻推送方法、装置及设备 |
CN110162700A (zh) * | 2019-04-23 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 信息推荐及模型的训练方法、装置、设备以及存储介质 |
CN110489574A (zh) * | 2019-08-05 | 2019-11-22 | 东软集团股份有限公司 | 一种多媒体信息推荐方法、装置和相关设备 |
-
2020
- 2020-09-28 CN CN202011042260.7A patent/CN112182351A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN102929928A (zh) * | 2012-09-21 | 2013-02-13 | 北京格致璞科技有限公司 | 基于多维相似度的个性化新闻推荐方法 |
US20150262069A1 (en) * | 2014-03-11 | 2015-09-17 | Delvv, Inc. | Automatic topic and interest based content recommendation system for mobile devices |
KR20150114087A (ko) * | 2014-03-31 | 2015-10-12 | 한양대학교 산학협력단 | 업데이트된 뉴스 콘텐츠 제공 방법 및 장치 |
CN109325175A (zh) * | 2018-08-23 | 2019-02-12 | 广东工业大学 | 融合微博兴趣挖掘的新闻推送方法、装置及设备 |
CN110162700A (zh) * | 2019-04-23 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 信息推荐及模型的训练方法、装置、设备以及存储介质 |
CN110489574A (zh) * | 2019-08-05 | 2019-11-22 | 东软集团股份有限公司 | 一种多媒体信息推荐方法、装置和相关设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822737A (zh) * | 2021-03-30 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 信息推送方法、装置、计算机系统及存储介质 |
CN114817753A (zh) * | 2022-06-29 | 2022-07-29 | 京东方艺云(杭州)科技有限公司 | 一种艺术画作的推荐方法及装置 |
CN114817753B (zh) * | 2022-06-29 | 2022-09-09 | 京东方艺云(杭州)科技有限公司 | 一种艺术画作的推荐方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359244B (zh) | 一种个性化信息推荐方法和装置 | |
CN105224699B (zh) | 一种新闻推荐方法及装置 | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
CN106503014B (zh) | 一种实时信息的推荐方法、装置和系统 | |
CN105426528B (zh) | 一种商品数据的检索排序方法及系统 | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
Akaichi | Social networks' Facebook'statutes updates mining for sentiment classification | |
Shi et al. | Learning-to-rank for real-time high-precision hashtag recommendation for streaming news | |
CN105488233A (zh) | 阅读信息推荐方法和系统 | |
US10402479B2 (en) | Method, server, browser, and system for recommending text information | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN112052387B (zh) | 一种内容推荐方法、装置和计算机可读存储介质 | |
CN110543598A (zh) | 信息推荐方法、装置及终端 | |
CN110163703B (zh) | 一种分类模型建立方法、文案推送方法和服务器 | |
CN109241451B (zh) | 一种内容组合推荐方法、装置及可读存储介质 | |
CN111506831A (zh) | 一种协同过滤的推荐模块、方法、电子设备及存储介质 | |
Natarajan et al. | Recommending news based on hybrid user profile, popularity, trends, and location | |
Shawon et al. | Website classification using word based multiple n-gram models and random search oriented feature parameters | |
CN106919997B (zh) | 一种基于lda的电子商务的用户消费预测方法 | |
CN112182351A (zh) | 一种基于多特征融合的新闻推荐方法及装置 | |
CN108304422A (zh) | 一种媒体搜索词推送方法和装置 | |
CN111310046A (zh) | 对象推荐方法及装置 | |
CN110750707A (zh) | 关键词推荐方法、装置和电子设备 | |
Mehta et al. | Collaborative personalized web recommender system using entropy based similarity measure | |
Sitorus et al. | Sensing trending topics in twitter for greater Jakarta area |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |