CN113220992A

CN113220992A - 一种信息流内容推荐方法、系统及介质

Info

Publication number: CN113220992A
Application number: CN202110493581.7A
Authority: CN
Inventors: 沈林锋
Original assignee: Suzhou Moduo Information Technology Co ltd
Current assignee: Suzhou Moduo Information Technology Co ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-08-06

Abstract

本发明公开了一种信息流内容推荐方法、系统及介质，所述方法包括以下步骤：分析第一用户的交互行为，将第一用户的交互行为分为正向行为和负向行为，根据正向行为建立第一信息推荐数据集；获取第一用户的第一数据集，将第一数据集内第一数据设置第一标志，将第一信息推荐数据集内推荐数据设置第二标志；将第一标志存储至布隆过滤器，通过布隆过滤器设置与所述第一数据对应的映射关系；设置时间参数，对第一数据集进行分组，根据分组结果以及时间参数进行存储操作以及数据清理操作；根据第一信息推荐数据集、第一标志、第二标志以及映射关系进行消息推送；本发明能够解决了历史记录数据量巨大的问题，提高用户跟APP之间响应的速度。

Description

一种信息流内容推荐方法、系统及介质

技术领域

本发明涉及数据处理领域，特别是涉及一种信息流内容推荐方法、系统及介质。

背景技术

随着互联网的发展和智能手机的普及，人们已经从纸质阅读时代步入了电子化阅读时代，人们更多的是利用智能手机通过互联网从各大APP或者软件上获得各种资讯，并且各大APP或者软件会不定时的进行信息流内容推荐。

在APP或者软件的信息流推荐中，展示给用户未曝光过和未阅读过的内容是一种很重要的功能，能极大地提高了用户的体验，但是需要将用户曝光过或者阅读过的内容记录并且存储在Mysql、Redis、MongoDB、Elasticsearch等数据库或者缓存中，并且在展示给用户内容时过滤掉存储在数据库中已经存在的记录，但是通过上述方法进行过滤时存在几个问题；

1、用户曝光过或者阅读过的内容占用数据库的存储空间较多，当进行过滤时需遍历数据库中所有内容，数据以及结果返回时间长；

2、通常查询用户历史数据，以Redis为例，可能使用KV存储进行get/Set判断，也可以考虑使用HashMap数据结构，这种方式在数据量小的时候都是完全可以的，但随着数据量的急剧增大，hash数据的存储以及在查询方面都会存一些问题。

发明内容

本发明主要解决的是用户曝光过或者阅读过的内容占用数据库的存储空间较多，并且进行展示内容时耗时长，以及数据量大时hash数据的存储以及在查询方面会出现错误的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种信息流内容推荐方法，包括以下步骤：

分析第一用户的交互行为，将所述第一用户的交互行为分为正向行为和负向行为，根据所述正向行为建立第一信息推荐数据集；

获取所述第一用户的第一数据集，将所述第一数据集内第一数据设置第一标志，将所述第一信息推荐数据集内推荐数据设置第二标志；

将所述第一标志存储至布隆过滤器，通过所述布隆过滤器设置与所述第一数据对应的映射关系；

设置时间参数，对所述第一数据集进行分组，根据分组结果以及所述时间参数进行存储操作以及数据清理操作；

根据所述第一信息推荐数据集、所述第一标志、所述第二标志以及所述映射关系进行消息推送。

优选的，所述通过所述布隆过滤器设置与所述第一数据的映射关系的步骤进一步包括：

设置与所述第一标志的数量对应的哈希函数；

通过所述哈希函数计算所述第一标志的散列值；

设置第一数组，将所述散列值映射至所述第一数组中，并将所述第一数组中与所述散列值映射的位置的比特值设置为第一比特值。

优选的，所述时间参数包括：时间阈值、保存时间以及检测时间周期。

优选的，所述对所述第一数据集进行分组，根据分组结果以及所述时间参数进行存储操作以及数据清理操作的步骤进一步包括：将所述第一数据集分为阅读分组和曝光分组；

所述阅读分组存储第一数据，所述曝光分组存储第二数据；

根据分组结果以及所述保存时间进行存储操作；

根据所述检测时间周期、所述时间阈值以及分组结果进行数据清理操作。

优选的，所述根据分组结果以及所述保存时间进行存储操作的步骤进一步包括：根据所述保存时间定期存储所述曝光分组中所述第二数据至第一数据分片中。

优选的，所述根据所述检测时间周期、所述时间阈值以及分组结果进行数据清理操作的步骤进一步包括：当达到所述检测时间周期时，获取第一时间以及第一曝光分组的创建时间；

计算所述第一时间与所述创建时间的时间差值；

判断所述时间差值与所述时间阈值的大小，根据判断结果进行清理所述第一曝光分组。

优选的，所述根据判断结果进行清理所述第一曝光分组的步骤进一步包括：若所述时间差值大于所述时间阈值，则删除所述第一曝光分组；

若所述时间差值不大于所述事件阈值，则当再次达到所述检测时间周期时，再次执行所述数据清理操作。

优选的，所述根据所述第一信息推荐数据集、所述第一标志、所述第二标志以及所述映射关系进行消息推送的步骤进一步包括：

从所述第一信息推荐数据集内获取第一推荐数据，获取与所述第一推荐数据对应的所述第二标志；

通过所述布隆过滤器、所述第一标志以及所述映射关系对所述第二标志进行判断，得到返回值；

判断所述返回值，若所述返回值为第一返回值，则不进行推荐所述第一推荐数据；

若所述返回值为第二返回值，则向所述第一用户推荐所述第一推荐数据。

本发明还提供一种信息流内容推荐系统，包括：建立模块、获取模块、设置模块、分组操作模块以及推送模块；

所述建立分析模块用于分析第一用户的交互行为，将所述第一用户的交互行为分为正向行为和负向行为；

所述建立分析模块用于根据所述正向行为建立第一信息推荐数据集；

所述获取模块用于获取所述第一用户的第一数据集；

所述设置模块用于将所述第一数据集内第一数据设置第一标志，将所述第一信息推荐数据集内推荐数据设置第二标志，

所述设置模块用于通过布隆过滤器设置与所述第一数据对应的映射关系以及设置时间参数；

所述分组操作模块用于对所述第一数据集进行分组，用于根据分组结果以及所述时间参数进行存储操作以及数据清理操作；

所述推送模块用于根据所述第一信息推荐数据集、所述第一标志、所述第二标志以及所述映射关系进行消息推送。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的一种信息流内容推荐方法的步骤。

本发明的有益效果是：

1、本发明所述的一种信息流内容推荐方法，可以根据用户的正向行为充分推荐用户感兴趣的内容，并且通过布隆过滤器以及对应的映射关系占用内存很少进而提升了响应的速度。

2、本发明所述的一种信息流内容推荐方法，使用了分组策略，分为阅读组及曝光组两组，同时对曝光组的创建时间进行判断，从而定期的清理冗余的数据，释放数据资源且提升了处理效率。

3、本发明所述的一种计算机可读存储介质，在实际应用中，当用户在APP中刷新信息流内容时，获取推荐数据以及其ID，通过布隆过滤器中曝光分片和阅读分片对这一批Id进行判断，不符合的ID不对应推荐，从而可以保证用户看到的所有文章一定是近期没有看过的，然后再推送给用户。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1所述的一种信息流内容推荐方法流程示意图；

图2是本发明实施例2所述的一种信息流内容推荐系统架构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“正向行为”、“负向行为”、“第一信息推荐数据集”、“第一标志”等应做广义理解。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在本发明的描述中：

布隆过滤器是检索一个元素是否在一个集合中的空间复杂度优化后的实现，它是一种数据结构，比较巧妙的概率型数据结构（probabilistic data structure），特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”。

Kv存储是指通过kv数据库进行存储，KV数据库是指Key-value数据库，是一种以键值对存储数据的一种数据库，类似java中的map。可以将整个数据库理解为一个大的map，每个键都会对应一个唯一的值。

key-value分布式存储系统查询速度快、存放数据量大、支持高并发，非常适合通过主键进行查询，但不能进行复杂的条件查询。

Hash，一般翻译做散列、杂凑，或音译为哈希，是把任意长度的输入（又叫做预映射pre-image）通过散列算法变换成固定长度的输出，该输出就是散列值。

第一比特值为1；第一数据为已阅读数据；第二数据为已曝光数据；

实施例1

本发明实施例提供一种信息流内容推荐方法，请参阅图1，包括以下步骤：

S100，用户在和信息流软件交互的时候会产生很多行为，例如点赞、分享、喜欢、评论或者停留某一信息的时间等。这些行为从用户的情感可以分为正向行为和负向行为。那些能体现出用户喜欢该内容的行为即为正向行为，而一些行为进行分析后，会反映出用户并不喜欢该内容，该行为即为负向行为；

根据第一用户的正向行为建立第一信息流推荐数据集，第一信息流推荐数据集内存储该用户的比较喜欢的一些内容以及资讯信息；

S200，获取第一用户的第一数据集，其中第一数据集为第一用户的历史数据，包括用户已经浏览过的数据、已经阅读和曝光过的数据；将第一数据集内每组数据设置一个ID1第一标志，也就是将第一数据集内第一数据设置ID1第一标志；

将第一信息流推荐数据集内的若干推荐数据中每个推荐数据设置一个ID2第二标志；

S300，将第一数据集的若干个ID1第一标志存储至布隆过滤器中并通过布隆过滤器设置第一数据的映射关系；

通过布隆过滤器设置第一数据的映射关系的具体步骤为：

设置与所述第一数据的ID标志的数量对应的若干个hash函数，其中每个hash函数对应第一数据中的一个ID标志；

通过hash函数将第一数据中的每个ID散列为一个散列值，得到若干散列值；

设置一个长度为第一比特的数组，记为第一数组，第一数组中每个比特对应的位置初始值为0；

将若干散列值映射至第一数组中，并将数组中映射所述散列值的位置对应比特的值设置为1。

S400，设置时间参数对第一数据集进行分组，将第一数据集分为阅读组以及曝光组；阅读组存储已阅读数据，曝光组存储已曝光数据；根据分组结果以及所述时间参数进行存储操作以及数据清理操作；

具体步骤为：时间参数包括：删除曝光组时间阈值，曝光组保存时间以及检测时间周期；

通过所述保存时间定期保存所述曝光组数据至不同的曝光组数据分片中，需要说明的是阅读组中的记录永久保存；

根据检测时间周期执行数据清理操作；

数据清理操作具体步骤为：当达到所述检测时间周期时，获取当前时间记为第一时间，以及第一曝光组数据分片创建时间，计算第一时间与第一曝光组数据分片创建时间的时间差值；若所述时间差值大于所述时间阈值，则删除所述第一曝光组；

若所述时间差值不大于所述时间阈值，则不删除所述第一曝光组，进行等待，当再次达到检测时间周期时，再次执行数据清理操作。

S500，根据第一信息推荐数据集、ID1第一标志、ID2第二标志以及所述映射关系进行信息流推送，当第一用户在APP中刷新内容时，从第一信息流推荐数据集内获取第一推荐数据，并且获取与第一推荐数据对应的数据ID2第二标志，通过布隆过滤器中曝光分片和阅读分片、ID1第一标志、以及映射关系对此数据ID2第二标志进行判断，并得到返回值；判断返回值，如果返回值为1，则说明该推荐数据第一用户已经阅读或者曝光过，如果返回值为0，则说明该推荐数据第一用户未阅读或者曝光过，则向第一用户推送该推荐数据。

S400，具体步骤为：对该推荐数据的ID2第二标志通过hash进行计算，并在映射在第一数组中，找到映射第一数组中的位置对应的比特值，如果为对应的比特值都为1，则该返回值为1，说明该推荐数据存在；

其中，推荐数据的ID通过hash进行计算映射第一数组中的位置可以为多个，

如果映射第一数组中的位置对应的比特值，存在一个不为1的情况，则说明该推荐数据不存在第一数据集中，用户一定未阅读或者曝光过，返回值为0。

实施例2

本发明实施例还提供一种信息流内容推荐系统，请参阅图2，包括：建立模块、获取模块、设置模块、分组操作模块以及推送模块；

建立分析模块用于分析第一用户的交互行为，将所述第一用户的交互行为分为正向行为和负向行为；

建立分析模块用于根据所述正向行为建立第一信息推荐数据集；

获取模块用于获取所述第一用户的第一数据集；

设置模块用于将所述第一数据集内第一数据设置第一标志，将所述第一信息推荐数据集内推荐数据设置第二标志，

设置模块用于通过布隆过滤器设置与所述第一数据对应的映射关系以及设置时间参数；

分组操作模块用于对所述第一数据集进行分组，用于根据分组结果以及所述时间参数进行存储操作以及数据清理操作；

推送模块用于根据所述第一信息推荐数据集、所述第一标志、所述第二标志以及所述映射关系进行消息推送。

实施例3

本发明还提供了一种计算机可读存储介质，计算机可读存储介质存储有被处理器执行时执行如上方法的计算机程序，实现上述所述的一种信息流内容推荐方法的步骤。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM）或随机存储记忆体(RAM）等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外，应该明白的是，本文的计算机可读存储介质(例如，存储器）可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种信息流内容推荐方法，其特征在于，包括以下步骤：分析第一用户的交互行为，将所述第一用户的交互行为分为正向行为和负向行为，根据所述正向行为建立第一信息推荐数据集；

2.根据权利要求1所述的一种信息流内容推荐方法，其特征在于：所述通过所述布隆过滤器设置与所述第一数据的映射关系的步骤进一步包括：

设置与所述第一标志的数量对应的哈希函数；

通过所述哈希函数计算所述第一标志的散列值；

3.根据权利要求1所述的一种信息流内容推荐方法，其特征在于：所述时间参数包括：时间阈值、保存时间以及检测时间周期。

4.根据权利要求3所述的一种信息流内容推荐方法，其特征在于：所述对所述第一数据集进行分组，根据分组结果以及所述时间参数进行存储操作以及数据清理操作的步骤进一步包括：将所述第一数据集分为阅读分组和曝光分组；

所述阅读分组存储第一数据，所述曝光分组存储第二数据；

根据分组结果以及所述保存时间进行存储操作；

5.根据权利要求4所述的一种信息流内容推荐方法，其特征在于：所述根据分组结果以及所述保存时间进行存储操作的步骤进一步包括：根据所述保存时间定期存储所述曝光分组中所述第二数据至第一数据分片中。

6.根据权利要求3或4所述的一种信息流内容推荐方法，其特征在于：所述根据所述检测时间周期、所述时间阈值以及分组结果进行数据清理操作的步骤进一步包括：当达到所述检测时间周期时，获取第一时间以及第一曝光分组的创建时间；

计算所述第一时间与所述创建时间的时间差值；

7.根据权利要求6所述的一种信息流内容推荐方法，其特征在于：所述根据判断结果进行清理所述第一曝光分组的步骤进一步包括：若所述时间差值大于所述时间阈值，则删除所述第一曝光分组；

8.根据权利要求1所述的一种信息流内容推荐方法，其特征在于：所述根据所述第一信息推荐数据集、所述第一标志、所述第二标志以及所述映射关系进行消息推送的步骤进一步包括：

9.一种信息流内容推荐系统，其特征在于，包括：建立模块、获取模块、设置模块、分组操作模块以及推送模块；

所述获取模块用于获取所述第一用户的第一数据集；

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-8任一项所述的一种信息流内容推荐方法的步骤。