CN107066602A - 一种新闻信息推送方法及系统 - Google Patents

一种新闻信息推送方法及系统 Download PDF

Info

Publication number
CN107066602A
CN107066602A CN201710266617.1A CN201710266617A CN107066602A CN 107066602 A CN107066602 A CN 107066602A CN 201710266617 A CN201710266617 A CN 201710266617A CN 107066602 A CN107066602 A CN 107066602A
Authority
CN
China
Prior art keywords
news
similarity
user
database
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710266617.1A
Other languages
English (en)
Inventor
姚亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201710266617.1A priority Critical patent/CN107066602A/zh
Publication of CN107066602A publication Critical patent/CN107066602A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新闻信息推送方法,包括:获取新闻数据库中每条新闻的相似度矩阵;获取用户的历史新闻点击记录集合;遍历用户的历史新闻点击记录集合中的每条新闻;基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,目标新闻为待推送新闻。本发明能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。本发明还公开了一种新闻信息推送系统。

Description

一种新闻信息推送方法及系统
技术领域
本发明涉及信息处理技术领域,尤其涉及一种新闻信息推送方法及系统。
背景技术
随着电子技术的不断发展,越来越多的用户通过电子设备来获取信息。对于目前新闻客户端要面对千万的用户,每天可以推荐的新闻有数十万条。要实现根据用户的兴趣的个性化推荐,需要为每个用户从数十万条新闻中筛选出几十条到几百条新闻。
在现有技术中,为了实现新闻客户端的用户的个性化推荐,实现展现给每个用户的新闻因人而异,有效提高用户对新闻客户端的依赖程度和阅读时长,引入了协同过滤技术,为每个用户展现符合兴趣的新闻。
传统的协同过滤是基于用户的协同过滤,首先借助召回策略产生候选集,利用用户协同模型对候选集进行排序。主要会计算任意两个用户之间的相似度;根据任意两个用户之间的相似度构建用户相似度矩阵,并根据用户相似度矩阵获得各用户的最近邻居集合;根据最近邻居集合计算用户对各项目的预测评分;根据各项目的预测评分和预测评分的置信度计算任意两个用户的相似度;根据任意两个用户的相似度计算各用户的最近邻居集合;根据用户的最近邻居集合,对用户的未评分项目进行评分,并根据评分结果生成用户的推荐集。
现有技术在实现方面需要计算用户之间的相似度,对于用户量巨大的应用场景,这样的做法会大大提高成本。例如对于千万级别的用户,即使利用一些优化技术,计算成本可以被优化,存储压力也会很大,因为要存储上亿个数据,这些数据计算完成之后要经常随着用户的变动而被迫更新,对于计算和存储压力巨大。
在线上排序方面,基于用户协同的方式每次需要根据自己相邻用户对物品的喜好程度投票决定一个用户对该物品的喜好程度,这样的方式会导致线上排序过程过于复杂。
最后,现在的协同过滤只提供了排序功能,需要额外的模块进行新闻的召回,生成待排序新闻的候选集,召回策略的优劣会极大地影响协同过滤的效果。
综上所述,如何提供一种有效的新闻信息推送方法是一项亟待解决的问题。
发明内容
本发明提供了一种新闻信息推送方法,能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。
本发明提供了一种新闻信息推送方法,包括:
获取新闻数据库中每条新闻的相似度矩阵;
获取用户的历史新闻点击记录集合;
遍历所述用户的历史新闻点击记录集合中的每条新闻;
基于所述数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,所述目标新闻为待推送新闻。
优选地,所述获取新闻数据库中每条新闻的相似度矩阵包括:
在新闻数据库中获取点击记录,所述点击记录包括新闻ID和用户ID;
按照新闻ID进行聚合,得到每条新闻的点击用户集合,构成该新闻的向量;
对每条新闻的向量通过局部敏感哈希函数求得每条新闻对应的哈希值;
基于所述哈希值将新闻数据库中的新闻进行分桶;
对每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,构成每条新闻的相似度矩阵。
优选地,所述基于所述数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,所述目标新闻为待推送新闻包括:
在所述每条新闻的相似度矩阵中获取与所述历史新闻点击记录集合中的其中任意一条新闻相似度满足预设阈值的候选新闻;
在所述候选新闻中提取出重复新闻;
对所述重复新闻对应的相似度进行求和,生成目标新闻序列。
优选地,所述对所述重复新闻对应的相似度进行求和,生成目标新闻序列后,还包括:
基于所述目标新闻的序列顺序推送所述目标新闻。
一种新闻信息推送系统,包括:
第一获取模块,用于获取新闻数据库中每条新闻的相似度矩阵;
第二获取模块,用于获取用户的历史新闻点击记录集合;
遍历模块,用于遍历所述用户的历史新闻点击记录集合中的每条新闻;
第三获取模块,用于基于所述数据库中每条新闻的相似度矩阵,获取满足预设条件目标新闻,所述目标新闻为待推送新闻。
优选地,所述第一获取模块包括:
点击记录获取单元,用于在新闻数据库中获取点击记录,所述点击记录包括新闻ID和用户ID;
聚合单元,用于按照新闻ID进行聚合,得到每条新闻的点击用户集合,构成该新闻的向量;
计算单元,用于对每条新闻的向量通过局部敏感哈希函数求得每条新闻对应的哈希值;
分桶单元,用于基于所述哈希值将新闻数据库中的新闻进行分桶;
第一生成单元,用于对每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,构成每条新闻的相似度矩阵。
优选地,所述第三获取模块包括:
候选新闻获取单元,用于在所述每条新闻的相似度矩阵中获取与所述历史新闻点击记录集合中的其中任意一条新闻相似度满足预设阈值的候选新闻;
提取单元,用于在所述候选新闻中提取出重复新闻;
第二生成单元,用于对所述重复新闻对应的相似度进行求和,生成目标新闻序列。
优选地,所述系统还包括:
推送模块,用于基于所述目标新闻的序列顺序推送所述目标新闻。
由上述方案可知,本发明提供的一种新闻信息推送方法,当需要向用户推送新闻信息时,首先获取新闻数据库中每条新闻的相似度矩阵,然后获取用户的历史新闻点击记录集合,然后遍历用户的历史新闻点击记录集合中的每条新闻,然后基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,将目标新闻作为待推送新闻进行推送。相对于现有技术能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种新闻信息推送方法实施例1的方法流程图;
图2为本发明公开的一种新闻信息推送方法实施例2的方法流程图;
图3为本发明公开的一种新闻信息推送方法实施例3的方法流程图;
图4为本发明公开的一种新闻信息推送方法实施例4的方法流程图;
图5为本发明公开的一种新闻信息推送系统实施例1的结构示意图;
图6为本发明公开的一种新闻信息推送系统实施例2的结构示意图;
图7为本发明公开的一种新闻信息推送系统实施例3的结构示意图;
图8为本发明公开的一种新闻信息推送系统实施例4的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了更加特定地强调实施的独立性,本说明书涉及许多模块或单元。举例而言,模块或单元可由硬件电路实现,该硬件电路包括特制VLSI电路或门阵列,比如逻辑芯片、晶体管,或其它组件。模块或单元也可在可编程的硬设备中实现,比如场效可编程门阵列、可编程阵列逻辑、可编程逻辑设备等等。
模块或单元也可在藉由各种形式的处理器所执行的软件中实现。比如说,一可执行码模块可包括一个或多个实体的或逻辑的计算机指令区块,该区块可能形成为,比如说,对象、程序或函数。然而,鉴别模块或单元的可执行部分不需要物理上放置在一起,但可由存于不同位置的不同指令所组成,当逻辑上组合在一起时,形成模块或单元且达到该模块或单元所要求的目的。
实际上,可执行码模块或单元可以是一单一指令或多个指令,甚至可以分布在位于不同的程序中的数个不同的码区段,并且横跨数个存储设备。同样地,操作数据可被辨识及显示于此模块或单元中,并且可以以任何合适的形式实施且在任何合适的数据结构形式内组织。操作数据可以集合成单一数据集,或可分布在具有不同的存储设备的不同的位置,且至少部分地只以电子信号方式存在于一系统或网络。
本说明书所提及的“实施例”或类似用语表示与实施例有关的特性、结构或特征,包括在本发明的至少一实施例中。因此,本说明书所出现的用语“在一实施例中”、“在实施例中”以及类似用语可能但不必然都指向相同实施例。
再者,本发明所述特性、结构或特征可以以任何方式结合在一个或多个实施例中。以下说明将提供许多特定的细节,比如编程序、软件模块、用户选择、网络交易、数据库查询、数据库结构、硬件模块、硬件电路、硬件芯片等例子,以提供对本发明实施例的了解。然而相关领域的普通技术人员将看出本发明,即使没有利用其中一个或多个特定细节,或利用其它方法、组件、材料等亦可实施。另一方面,为避免混淆本发明,公知的结构、材料或操作并没有详细描述。
如图1所示,为本发明公开的一种新闻信息推送方法实施例1的方法流程图,该方法包括:
S101、获取新闻数据库中每条新闻的相似度矩阵;
当需要向用户推荐新闻时,首先获取新闻数据库中每条新闻的相似度矩阵,其中,所述的新闻数据库是指存放用户历史点击记录的数据库,数据库中包含用户点击的新闻信息以及对应的用户信息。其中,每条新闻的相似度矩阵是指与该新闻最相似的前N条新闻,例如,与该新闻最相似的前20条新闻,构成该新闻的相似度矩阵。需要说明的是,新闻数据库中每条新闻的相似度矩阵可以是预先生成的,当需要向用户推荐新闻时,只需获取预先生成的新闻数据库中每条新闻的相似度矩阵。
S102、获取用户的历史新闻点击记录集合;
当获取到新闻数据库中每条新闻的相似度矩阵后,进一步获取用户的历史新闻点击记录集合,例如,获取用户A对新闻的历史点击记录,其中历史点击记录中包含用户在某一时刻点对应点击的新闻,构成的集合可以表示为S(N1:t1,N2:t2……Nn:tn)。
S103、遍历用户的历史新闻点击记录集合中的每条新闻;
当获取到用户的历史新闻点击记录集合后,遍历用户的历史新闻点击记录集合中的每条新闻,即对集合中的每条新闻进行分析处理。
S104、基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,目标新闻为待推送新闻。
针对历史新闻点击记录集合中的每条新闻,分别根据获取到的数据库中每条新闻的相似度矩阵,获取每条新闻满足第一预设条件的目标新闻,其中,所述的满足第一预设条件是指能够向用户推荐相似度较高的目标新闻。
综上所述,在上述实施例中,当需要向用户推送新闻信息时,首先获取新闻数据库中每条新闻的相似度矩阵,然后获取用户的历史新闻点击记录集合,然后遍历用户的历史新闻点击记录集合中的每条新闻,然后基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,将目标新闻作为待推送新闻进行推送。相对于现有技术能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。
如图2所示,为本发明公开的一种新闻信息推送方法实施例2的流程图,该方法可以包括以下步骤:
S201、在新闻数据库中获取点击记录,点击记录包括新闻ID和用户ID;
当需要向用户推荐新闻时,首先在新闻数据库中获取点击记录,其中,所述的新闻数据库是指存放用户历史点击记录的数据库,数据库中包含用户点击的新闻信息以及对应的用户信息,即点击记录包括新闻ID和用户ID。
S202、按照新闻ID进行聚合,得到每条新闻的点击用户集合,构成该新闻的向量;
当在新闻数据库中获取到点击记录后,按照点击记录中的新闻ID进行聚合,得到每条新闻对应的点击用户的集合,用该得到的点击用户的集合表示该新闻的向量。
S203、对每条新闻的向量通过局部敏感哈希函数求得每条新闻对应的哈希值;
然后对每条新闻的向量通过局部敏感哈希函数求得其哈希值,并将该新闻放在哈希值对应的桶中,并重复该过程N次,每次都通过新的局部哈希函数进行计算。
S204、基于哈希值将新闻数据库中的新闻进行分桶;
S205、对每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,构成每条新闻的相似度矩阵;
对经过分桶后的每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,例如获取每条新闻最相似的前20条新闻,构成每条新闻的相似度矩阵。
S206、获取用户的历史新闻点击记录集合;
当获取到新闻数据库中每条新闻的相似度矩阵后,进一步获取用户的历史新闻点击记录集合,例如,获取用户A对新闻的历史点击记录,其中历史点击记录中包含用户在某一时刻点对应点击的新闻,构成的集合可以表示为S(N1:t1,N2:t2……Nn:tn)。
S207、遍历用户的历史新闻点击记录集合中的每条新闻;
当获取到用户的历史新闻点击记录集合后,遍历用户的历史新闻点击记录集合中的每条新闻,即对集合中的每条新闻进行分析处理。
S208、基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,目标新闻为待推送新闻。
针对历史新闻点击记录集合中的每条新闻,分别根据获取到的数据库中每条新闻的相似度矩阵,获取每条新闻满足第一预设条件的目标新闻,其中,所述的满足第一预设条件是指能够向用户推荐相似度较高的目标新闻。
综上所述,在上述实施例中,当需要向用户推送新闻信息时,首先获取新闻数据库中每条新闻的相似度矩阵,然后获取用户的历史新闻点击记录集合,然后遍历用户的历史新闻点击记录集合中的每条新闻,然后基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,将目标新闻作为待推送新闻进行推送。相对于现有技术能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。
如图3所示,为本发明公开的一种新闻信息推送方法实施例3的流程图,该方法可以包括以下步骤:
S301、在新闻数据库中获取点击记录,点击记录包括新闻ID和用户ID;
当需要向用户推荐新闻时,首先在新闻数据库中获取点击记录,其中,所述的新闻数据库是指存放用户历史点击记录的数据库,数据库中包含用户点击的新闻信息以及对应的用户信息,即点击记录包括新闻ID和用户ID。
S302、按照新闻ID进行聚合,得到每条新闻的点击用户集合,构成该新闻的向量;
当在新闻数据库中获取到点击记录后,按照点击记录中的新闻ID进行聚合,得到每条新闻对应的点击用户的集合,用该得到的点击用户的集合表示该新闻的向量。
S303、对每条新闻的向量通过局部敏感哈希函数求得每条新闻对应的哈希值;
然后对每条新闻的向量通过局部敏感哈希函数求得其哈希值,并将该新闻放在哈希值对应的桶中,并重复该过程N次,每次都通过新的局部哈希函数进行计算。
S304、基于哈希值将新闻数据库中的新闻进行分桶;
S305、对每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,构成每条新闻的相似度矩阵;
对经过分桶后的每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,例如获取每条新闻最相似的前20条新闻,构成每条新闻的相似度矩阵。
S306、获取用户的历史新闻点击记录集合;
当获取到新闻数据库中每条新闻的相似度矩阵后,进一步获取用户的历史新闻点击记录集合,例如,获取用户A对新闻的历史点击记录,其中历史点击记录中包含用户在某一时刻点对应点击的新闻,构成的集合可以表示为S(N1:t1,N2:t2……Nn:tn)。
S307、遍历用户的历史新闻点击记录集合中的每条新闻;
当获取到用户的历史新闻点击记录集合后,遍历用户的历史新闻点击记录集合中的每条新闻,即对集合中的每条新闻进行分析处理。
S308、在每条新闻的相似度矩阵中获取与历史新闻点击记录集合中的其中任意一条新闻相似度满足预设阈值的候选新闻;
遍历点击记录集合S中的每个新闻,对于一个新闻Ni从相似度矩阵中获取其相似度满足预设阈值的新闻,例如,获取相似度排名前20的新闻。
S309、在候选新闻中提取出重复新闻;
由于不同的点击新闻的相似度满足预设阈值的新闻会有重复,例如,不同的点击新闻的相似度排名前20的新闻存在重复。提取出重复的新闻。
S310、对重复新闻对应的相似度进行求和,生成目标新闻序列。
对提取出的重复新闻的相似度进行求和,得到一个有序的序列,根据生成的序列进行新闻推荐。
综上所述,在上述实施例中,当需要向用户推送新闻信息时,首先获取新闻数据库中每条新闻的相似度矩阵,然后获取用户的历史新闻点击记录集合,然后遍历用户的历史新闻点击记录集合中的每条新闻,然后基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,将目标新闻作为待推送新闻进行推送。相对于现有技术能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。
如图4所示,为本发明公开的一种新闻信息推送方法实施例4的流程图,该方法可以包括以下步骤:
S401、在新闻数据库中获取点击记录,点击记录包括新闻ID和用户ID;
当需要向用户推荐新闻时,首先在新闻数据库中获取点击记录,其中,所述的新闻数据库是指存放用户历史点击记录的数据库,数据库中包含用户点击的新闻信息以及对应的用户信息,即点击记录包括新闻ID和用户ID。
S402、按照新闻ID进行聚合,得到每条新闻的点击用户集合,构成该新闻的向量;
当在新闻数据库中获取到点击记录后,按照点击记录中的新闻ID进行聚合,得到每条新闻对应的点击用户的集合,用该得到的点击用户的集合表示该新闻的向量。
S403、对每条新闻的向量通过局部敏感哈希函数求得每条新闻对应的哈希值;
然后对每条新闻的向量通过局部敏感哈希函数求得其哈希值,并将该新闻放在哈希值对应的桶中,并重复该过程N次,每次都通过新的局部哈希函数进行计算。
S404、基于哈希值将新闻数据库中的新闻进行分桶;
S405、对每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,构成每条新闻的相似度矩阵;
对经过分桶后的每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,例如获取每条新闻最相似的前20条新闻,构成每条新闻的相似度矩阵。
S406、获取用户的历史新闻点击记录集合;
当获取到新闻数据库中每条新闻的相似度矩阵后,进一步获取用户的历史新闻点击记录集合,例如,获取用户A对新闻的历史点击记录,其中历史点击记录中包含用户在某一时刻点对应点击的新闻,构成的集合可以表示为S(N1:t1,N2:t2……Nn:tn)。
S407、遍历用户的历史新闻点击记录集合中的每条新闻;
当获取到用户的历史新闻点击记录集合后,遍历用户的历史新闻点击记录集合中的每条新闻,即对集合中的每条新闻进行分析处理。
S408、在每条新闻的相似度矩阵中获取与历史新闻点击记录集合中的其中任意一条新闻相似度满足预设阈值的候选新闻;
遍历点击记录集合S中的每个新闻,对于一个新闻Ni从相似度矩阵中获取其相似度满足预设阈值的新闻,例如,获取相似度排名前20的新闻。
S409、在候选新闻中提取出重复新闻;
由于不同的点击新闻的相似度满足预设阈值的新闻会有重复,例如,不同的点击新闻的相似度排名前20的新闻存在重复。提取出重复的新闻。
S410、对重复新闻对应的相似度进行求和,生成目标新闻序列;
对提取出的重复新闻的相似度进行求和,得到一个有序的序列,根据生成的序列进行新闻推荐。
S411、基于目标新闻的序列顺序推送目标新闻。
当生成目标新闻序列后,按照序列顺序将序列中的新闻推送至用户客户端。
综上所述,在上述实施例中,当需要向用户推送新闻信息时,首先获取新闻数据库中每条新闻的相似度矩阵,然后获取用户的历史新闻点击记录集合,然后遍历用户的历史新闻点击记录集合中的每条新闻,然后基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,将目标新闻作为待推送新闻进行推送。相对于现有技术能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。
如图5所示,为本发明公开的一种新闻信息推送系统实施例1的结构示意图,该系统包括:
第一获取模块501,用于获取新闻数据库中每条新闻的相似度矩阵;
当需要向用户推荐新闻时,首先获取新闻数据库中每条新闻的相似度矩阵,其中,所述的新闻数据库是指存放用户历史点击记录的数据库,数据库中包含用户点击的新闻信息以及对应的用户信息。其中,每条新闻的相似度矩阵是指与该新闻最相似的前N条新闻,例如,与该新闻最相似的前20条新闻,构成该新闻的相似度矩阵。需要说明的是,新闻数据库中每条新闻的相似度矩阵可以是预先生成的,当需要向用户推荐新闻时,只需获取预先生成的新闻数据库中每条新闻的相似度矩阵。
第二获取模块502,用于获取用户的历史新闻点击记录集合;
当获取到新闻数据库中每条新闻的相似度矩阵后,进一步获取用户的历史新闻点击记录集合,例如,获取用户A对新闻的历史点击记录,其中历史点击记录中包含用户在某一时刻点对应点击的新闻,构成的集合可以表示为S(N1:t1,N2:t2……Nn:tn)。
遍历模块503,用于遍历用户的历史新闻点击记录集合中的每条新闻;
当获取到用户的历史新闻点击记录集合后,遍历用户的历史新闻点击记录集合中的每条新闻,即对集合中的每条新闻进行分析处理。
第三获取模块504,用于基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,目标新闻为待推送新闻。
针对历史新闻点击记录集合中的每条新闻,分别根据获取到的数据库中每条新闻的相似度矩阵,获取每条新闻满足第一预设条件的目标新闻,其中,所述的满足第一预设条件是指能够向用户推荐相似度较高的目标新闻。
综上所述,在上述实施例中,当需要向用户推送新闻信息时,首先获取新闻数据库中每条新闻的相似度矩阵,然后获取用户的历史新闻点击记录集合,然后遍历用户的历史新闻点击记录集合中的每条新闻,然后基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,将目标新闻作为待推送新闻进行推送。相对于现有技术能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。
如图6所示,为本发明公开的一种新闻信息推送系统实施例2的结构示意图,该系统可以包括:
点击记录获取单元601,用于在新闻数据库中获取点击记录,点击记录包括新闻ID和用户ID;
当需要向用户推荐新闻时,首先在新闻数据库中获取点击记录,其中,所述的新闻数据库是指存放用户历史点击记录的数据库,数据库中包含用户点击的新闻信息以及对应的用户信息,即点击记录包括新闻ID和用户ID。
聚合单元602,用于按照新闻ID进行聚合,得到每条新闻的点击用户集合,构成该新闻的向量;
当在新闻数据库中获取到点击记录后,按照点击记录中的新闻ID进行聚合,得到每条新闻对应的点击用户的集合,用该得到的点击用户的集合表示该新闻的向量。
计算单元603,用于对每条新闻的向量通过局部敏感哈希函数求得每条新闻对应的哈希值;
然后对每条新闻的向量通过局部敏感哈希函数求得其哈希值,并将该新闻放在哈希值对应的桶中,并重复该过程N次,每次都通过新的局部哈希函数进行计算。
分桶单元604,用于基于哈希值将新闻数据库中的新闻进行分桶;
第一生成单元605,用于对每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,构成每条新闻的相似度矩阵;
对经过分桶后的每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,例如获取每条新闻最相似的前20条新闻,构成每条新闻的相似度矩阵。
第二获取模块606,用于获取用户的历史新闻点击记录集合;
当获取到新闻数据库中每条新闻的相似度矩阵后,进一步获取用户的历史新闻点击记录集合,例如,获取用户A对新闻的历史点击记录,其中历史点击记录中包含用户在某一时刻点对应点击的新闻,构成的集合可以表示为S(N1:t1,N2:t2……Nn:tn)。
遍历模块607,用于遍历用户的历史新闻点击记录集合中的每条新闻;
当获取到用户的历史新闻点击记录集合后,遍历用户的历史新闻点击记录集合中的每条新闻,即对集合中的每条新闻进行分析处理。
第三获取模块608,用于基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,目标新闻为待推送新闻。
针对历史新闻点击记录集合中的每条新闻,分别根据获取到的数据库中每条新闻的相似度矩阵,获取每条新闻满足第一预设条件的目标新闻,其中,所述的满足第一预设条件是指能够向用户推荐相似度较高的目标新闻。
综上所述,在上述实施例中,当需要向用户推送新闻信息时,首先获取新闻数据库中每条新闻的相似度矩阵,然后获取用户的历史新闻点击记录集合,然后遍历用户的历史新闻点击记录集合中的每条新闻,然后基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,将目标新闻作为待推送新闻进行推送。相对于现有技术能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。
如图7所示,为本发明公开的一种新闻信息推送系统实施例3的结构示意图,该系统可以包括:
点击记录获取单元701,用于在新闻数据库中获取点击记录,点击记录包括新闻ID和用户ID;
当需要向用户推荐新闻时,首先在新闻数据库中获取点击记录,其中,所述的新闻数据库是指存放用户历史点击记录的数据库,数据库中包含用户点击的新闻信息以及对应的用户信息,即点击记录包括新闻ID和用户ID。
聚合单元702,用于按照新闻ID进行聚合,得到每条新闻的点击用户集合,构成该新闻的向量;
当在新闻数据库中获取到点击记录后,按照点击记录中的新闻ID进行聚合,得到每条新闻对应的点击用户的集合,用该得到的点击用户的集合表示该新闻的向量。
计算单元703,用于对每条新闻的向量通过局部敏感哈希函数求得每条新闻对应的哈希值;
然后对每条新闻的向量通过局部敏感哈希函数求得其哈希值,并将该新闻放在哈希值对应的桶中,并重复该过程N次,每次都通过新的局部哈希函数进行计算。
分桶单元704,用于基于哈希值将新闻数据库中的新闻进行分桶;
第一生成单元705,用于对每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,构成每条新闻的相似度矩阵;
对经过分桶后的每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,例如获取每条新闻最相似的前20条新闻,构成每条新闻的相似度矩阵。
第二获取模块706,用于获取用户的历史新闻点击记录集合;
当获取到新闻数据库中每条新闻的相似度矩阵后,进一步获取用户的历史新闻点击记录集合,例如,获取用户A对新闻的历史点击记录,其中历史点击记录中包含用户在某一时刻点对应点击的新闻,构成的集合可以表示为S(N1:t1,N2:t2……Nn:tn)。
遍历模块707,用于遍历用户的历史新闻点击记录集合中的每条新闻;
当获取到用户的历史新闻点击记录集合后,遍历用户的历史新闻点击记录集合中的每条新闻,即对集合中的每条新闻进行分析处理。
候选新闻获取单元708,用于在每条新闻的相似度矩阵中获取与历史新闻点击记录集合中的其中任意一条新闻相似度满足预设阈值的候选新闻;
遍历点击记录集合S中的每个新闻,对于一个新闻Ni从相似度矩阵中获取其相似度满足预设阈值的新闻,例如,获取相似度排名前20的新闻。
提取单元709,用于在候选新闻中提取出重复新闻;
由于不同的点击新闻的相似度满足预设阈值的新闻会有重复,例如,不同的点击新闻的相似度排名前20的新闻存在重复。提取出重复的新闻。
第二生成单元710,用于对重复新闻对应的相似度进行求和,生成目标新闻序列。
对提取出的重复新闻的相似度进行求和,得到一个有序的序列,根据生成的序列进行新闻推荐。
综上所述,在上述实施例中,当需要向用户推送新闻信息时,首先获取新闻数据库中每条新闻的相似度矩阵,然后获取用户的历史新闻点击记录集合,然后遍历用户的历史新闻点击记录集合中的每条新闻,然后基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,将目标新闻作为待推送新闻进行推送。相对于现有技术能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。
如图8所示,为本发明公开的一种新闻信息推送系统实施例4的结构示意图,该系统可以包括:
点击记录获取单元801,用于在新闻数据库中获取点击记录,点击记录包括新闻ID和用户ID;
当需要向用户推荐新闻时,首先在新闻数据库中获取点击记录,其中,所述的新闻数据库是指存放用户历史点击记录的数据库,数据库中包含用户点击的新闻信息以及对应的用户信息,即点击记录包括新闻ID和用户ID。
聚合单元802,用于按照新闻ID进行聚合,得到每条新闻的点击用户集合,构成该新闻的向量;
当在新闻数据库中获取到点击记录后,按照点击记录中的新闻ID进行聚合,得到每条新闻对应的点击用户的集合,用该得到的点击用户的集合表示该新闻的向量。
计算单元803,用于对每条新闻的向量通过局部敏感哈希函数求得每条新闻对应的哈希值;
然后对每条新闻的向量通过局部敏感哈希函数求得其哈希值,并将该新闻放在哈希值对应的桶中,并重复该过程N次,每次都通过新的局部哈希函数进行计算。
分桶单元804,用于基于哈希值将新闻数据库中的新闻进行分桶;
第一生成单元805,用于对每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,构成每条新闻的相似度矩阵;
对经过分桶后的每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,例如获取每条新闻最相似的前20条新闻,构成每条新闻的相似度矩阵。
第二获取模块806,用于获取用户的历史新闻点击记录集合;
当获取到新闻数据库中每条新闻的相似度矩阵后,进一步获取用户的历史新闻点击记录集合,例如,获取用户A对新闻的历史点击记录,其中历史点击记录中包含用户在某一时刻点对应点击的新闻,构成的集合可以表示为S(N1:t1,N2:t2……Nn:tn)。
遍历模块807,用于遍历用户的历史新闻点击记录集合中的每条新闻;
当获取到用户的历史新闻点击记录集合后,遍历用户的历史新闻点击记录集合中的每条新闻,即对集合中的每条新闻进行分析处理。
候选新闻获取单元808,用于在每条新闻的相似度矩阵中获取与历史新闻点击记录集合中的其中任意一条新闻相似度满足预设阈值的候选新闻;
遍历点击记录集合S中的每个新闻,对于一个新闻Ni从相似度矩阵中获取其相似度满足预设阈值的新闻,例如,获取相似度排名前20的新闻。
提取单元809,用于在候选新闻中提取出重复新闻;
由于不同的点击新闻的相似度满足预设阈值的新闻会有重复,例如,不同的点击新闻的相似度排名前20的新闻存在重复。提取出重复的新闻。
第二生成单元810,用于对重复新闻对应的相似度进行求和,生成目标新闻序列。
对提取出的重复新闻的相似度进行求和,得到一个有序的序列,根据生成的序列进行新闻推荐。
推送模块811,用于基于目标新闻的序列顺序推送目标新闻。
当生成目标新闻序列后,按照序列顺序将序列中的新闻推送至用户客户端。
综上所述,在上述实施例中,当需要向用户推送新闻信息时,首先获取新闻数据库中每条新闻的相似度矩阵,然后获取用户的历史新闻点击记录集合,然后遍历用户的历史新闻点击记录集合中的每条新闻,然后基于数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,将目标新闻作为待推送新闻进行推送。相对于现有技术能够缩短资源消耗,有效的为用户推送感兴趣的新闻信息,在提高推送准确率的同时提升了用户体验。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种新闻信息推送方法,其特征在于,包括:
获取新闻数据库中每条新闻的相似度矩阵;
获取用户的历史新闻点击记录集合;
遍历所述用户的历史新闻点击记录集合中的每条新闻;
基于所述数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,所述目标新闻为待推送新闻。
2.根据权利要求1所述的方法,其特征在于,所述获取新闻数据库中每条新闻的相似度矩阵包括:
在新闻数据库中获取点击记录,所述点击记录包括新闻ID和用户ID;
按照新闻ID进行聚合,得到每条新闻的点击用户集合,构成该新闻的向量;
对每条新闻的向量通过局部敏感哈希函数求得每条新闻对应的哈希值;
基于所述哈希值将新闻数据库中的新闻进行分桶;
对每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,构成每条新闻的相似度矩阵。
3.根据权利要求1所述的方法,其特征在于,所述基于所述数据库中每条新闻的相似度矩阵,获取满足第一预设条件目标新闻,所述目标新闻为待推送新闻包括:
在所述每条新闻的相似度矩阵中获取与所述历史新闻点击记录集合中的其中任意一条新闻相似度满足预设阈值的候选新闻;
在所述候选新闻中提取出重复新闻;
对所述重复新闻对应的相似度进行求和,生成目标新闻序列。
4.根据权利要求3所述的方法,其特征在于,所述对所述重复新闻对应的相似度进行求和,生成目标新闻序列后,还包括:
基于所述目标新闻的序列顺序推送所述目标新闻。
5.一种新闻信息推送系统,其特征在于,包括:
第一获取模块,用于获取新闻数据库中每条新闻的相似度矩阵;
第二获取模块,用于获取用户的历史新闻点击记录集合;
遍历模块,用于遍历所述用户的历史新闻点击记录集合中的每条新闻;
第三获取模块,用于基于所述数据库中每条新闻的相似度矩阵,获取满足预设条件目标新闻,所述目标新闻为待推送新闻。
6.根据权利要求5所述的系统,其特征在于,所述第一获取模块包括:
点击记录获取单元,用于在新闻数据库中获取点击记录,所述点击记录包括新闻ID和用户ID;
聚合单元,用于按照新闻ID进行聚合,得到每条新闻的点击用户集合,构成该新闻的向量;
计算单元,用于对每条新闻的向量通过局部敏感哈希函数求得每条新闻对应的哈希值;
分桶单元,用于基于所述哈希值将新闻数据库中的新闻进行分桶;
第一生成单元,用于对每个桶内的新闻进行两两求相似度,获取与每条新闻相似度满足第二预设条件的新闻,构成每条新闻的相似度矩阵。
7.根据权利要求5所述的系统,其特征在于,所述第三获取模块包括:
候选新闻获取单元,用于在所述每条新闻的相似度矩阵中获取与所述历史新闻点击记录集合中的其中任意一条新闻相似度满足预设阈值的候选新闻;
提取单元,用于在所述候选新闻中提取出重复新闻;
第二生成单元,用于对所述重复新闻对应的相似度进行求和,生成目标新闻序列。
8.根据权利要求7所述的系统,其特征在于,还包括:
推送模块,用于基于所述目标新闻的序列顺序推送所述目标新闻。
CN201710266617.1A 2017-04-21 2017-04-21 一种新闻信息推送方法及系统 Pending CN107066602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710266617.1A CN107066602A (zh) 2017-04-21 2017-04-21 一种新闻信息推送方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710266617.1A CN107066602A (zh) 2017-04-21 2017-04-21 一种新闻信息推送方法及系统

Publications (1)

Publication Number Publication Date
CN107066602A true CN107066602A (zh) 2017-08-18

Family

ID=59601083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710266617.1A Pending CN107066602A (zh) 2017-04-21 2017-04-21 一种新闻信息推送方法及系统

Country Status (1)

Country Link
CN (1) CN107066602A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689299A (zh) * 2021-05-10 2021-11-23 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN114791978A (zh) * 2022-04-19 2022-07-26 中国电信股份有限公司 新闻推荐方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678702A (zh) * 2013-12-30 2014-03-26 优视科技有限公司 视频去重方法及装置
CN105335385A (zh) * 2014-06-30 2016-02-17 北京金山安全软件有限公司 一种基于项目的协同过滤推荐方法及装置
CN105608219A (zh) * 2016-01-07 2016-05-25 上海通创信息技术有限公司 一种基于聚类的流式推荐引擎、推荐系统以及推荐方法
CN106227881A (zh) * 2016-08-04 2016-12-14 腾讯科技(深圳)有限公司 一种信息处理方法及服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678702A (zh) * 2013-12-30 2014-03-26 优视科技有限公司 视频去重方法及装置
CN105335385A (zh) * 2014-06-30 2016-02-17 北京金山安全软件有限公司 一种基于项目的协同过滤推荐方法及装置
CN105608219A (zh) * 2016-01-07 2016-05-25 上海通创信息技术有限公司 一种基于聚类的流式推荐引擎、推荐系统以及推荐方法
CN106227881A (zh) * 2016-08-04 2016-12-14 腾讯科技(深圳)有限公司 一种信息处理方法及服务器

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689299A (zh) * 2021-05-10 2021-11-23 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN113689299B (zh) * 2021-05-10 2023-10-20 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN114791978A (zh) * 2022-04-19 2022-07-26 中国电信股份有限公司 新闻推荐方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN108521439B (zh) 一种消息推送的方法和装置
CN107689008A (zh) 一种用户投保行为预测的方法及装置
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN108108821A (zh) 模型训练方法及装置
CN108805598B (zh) 相似度信息确定方法、服务器及计算机可读存储介质
Avila et al. SUSSING MERGER TREES: the influence of the halo finder
CN105975472A (zh) 一种推荐方法和装置
CN103942712A (zh) 基于产品相似度的电子商务推荐系统及其方法
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN104866474A (zh) 个性化数据搜索方法及装置
CN104615775A (zh) 一种用户推荐方法及装置
CN106446189A (zh) 一种资讯推荐方法及系统
US9798760B2 (en) Application retention metrics
CN105488366A (zh) 一种数据权限的控制方法和系统
CN105095279A (zh) 文件推荐方法和装置
CN103885971A (zh) 数据推送的方法及装置
CN110399559A (zh) 智能保险推荐系统和计算机存储介质
CN103530416A (zh) 项目数据预测评分库的生成、项目数据的推送方法和系统
CN110197404A (zh) 可降低流行度偏差的个性化长尾商品推荐方法和系统
CN103365842B (zh) 一种页面浏览推荐方法及装置
CN104239335A (zh) 特定用户信息获取方法及装置
CN110191183A (zh) 精准智能推送方法、系统、装置及计算机可读存储介质
CN106355450B (zh) 用户行为分析系统和方法
CN107066602A (zh) 一种新闻信息推送方法及系统
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170818

RJ01 Rejection of invention patent application after publication