CN106126641B - 一种基于Spark的实时推荐系统及方法 - Google Patents

一种基于Spark的实时推荐系统及方法 Download PDF

Info

Publication number
CN106126641B
CN106126641B CN201610465517.7A CN201610465517A CN106126641B CN 106126641 B CN106126641 B CN 106126641B CN 201610465517 A CN201610465517 A CN 201610465517A CN 106126641 B CN106126641 B CN 106126641B
Authority
CN
China
Prior art keywords
user
model
time
spark
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610465517.7A
Other languages
English (en)
Other versions
CN106126641A (zh
Inventor
陈航
周学海
庄航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201610465517.7A priority Critical patent/CN106126641B/zh
Publication of CN106126641A publication Critical patent/CN106126641A/zh
Application granted granted Critical
Publication of CN106126641B publication Critical patent/CN106126641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Spark的实时推荐系统,构建基于Spark的一栈式推荐系统框架,包括数据采集模块、离线推荐模块、在线推荐模块和推荐模块;离线推荐模块,根据用户配置参数从离线推荐算法库中选择相应推荐算法对用户行为数据进行训练,得到用户特征模型;在线推荐模块,将用户行为数据发送给在线推荐算法库中的相应算法进行训练,得到增量用户特征模型;在线模型训练引擎将训练得到的用户特征模型作为基础模型,使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;推荐模块,根据用户特征模型,并结合惰性更新机制更新用户推荐列表。能有效提高推荐结果的准确性和实时性。

Description

一种基于Spark的实时推荐系统及方法
技术领域
本发明涉及一种实时推荐系统及方法,具体地涉及一种基于Spark的实时推荐系统及方法。
背景技术
实时推荐系统是指能够实时感知用户兴趣变化,并根据用户兴趣变化实时调整为用户推荐的内容。传统推荐系统一般通过集群使用Hadoop MapReduce对用户行为数据每间隔一天进行一次离线训练,然后使用训练得到的用户特征模型为用户生成推荐列表。这显然无法达到实时推荐需求,无法实时感知用户偏好的变化,从而造成推荐准确度下降。目前,现有的实时推荐系统框架主要有Netflix公司的实时推荐系统框架。
Netflix实时推荐系统框架是一个能高效处理海量用户行为数据,响应用户交互,且推荐方法可配置的推荐系统架构。推荐系统框架分为离线计算、接近在线计算和在线计算三个模块。离线计算模块以Hadoop MapReduce批处理的方式对用户历史行为数据进行训练,得到用户特征模型,对实时性要求较弱。在线计算模块对实时性要求较高,主要用于快速响应用户交互。接近在线计算模块主要用于支持推荐准确度较高,但实时性要求略低于在线推荐的应用场景。
Netflix实时推荐系统存在的问题是:(1)在线计算模块主要用户相应用户交互,缺乏利用最新的用户行为数据对用户特征模型进行更新,故不能实时感知用户兴趣的变化(2)各模块采用不同类型的系统分别对数据进行处理,处理结果无法在各模块之间实现无缝共享;(3)同一个集群中对各系统所需资源的协调与分配比较困难。
发明内容
针对上述存在的技术问题,本发明目的是:提供了一种基于Spark的实时推荐系统及方法,本发明采用计算框架Spark加速用户特征模型的训练过程,并将推荐系统框架划分为离线批处理模块、接近在线推荐模块和在线推荐模块,各模块之间的数据流通过SparkRDD的转换来实现,能有效提高推荐结果的准确性和实时性。
本发明的技术方案是:
一种基于Spark的实时推荐系统,其特征在于,通过Spark软件分析栈构建基于Spark的一栈式推荐系统框架,包括数据采集模块、离线推荐模块、在线推荐模块和推荐模块,各模块之间的数据共享通过Spark RDD转换;
数据采集模块,用于采集用户行为数据;
所述离线推荐模块,包含离线推荐算法库,根据用户配置参数从离线推荐算法库中选择相应推荐算法对用户行为数据进行训练,得到用户特征模型;
所述在线推荐模块,接收来自Kafka的用户行为数据,并发送给在线推荐算法库中的相应算法进行训练,得到增量用户特征模型;在线模型训练引擎将训练得到的用户特征模型作为基础模型,使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;
所述推荐模块,根据用户特征模型,并结合惰性更新机制更新用户推荐列表。
优选的,所述在线推荐模块还包括接近在线推荐模块,将最新接收到的用户行为数据与在此之前接收到的所有用户行为数据进行融合,将融合之后的用户行为数据发送给接近在线模型训练引擎,选择在线推荐算法库中的接近在线推荐算法进行训练,得到精确用户特征模型。
优选的,还包括模型融合模块,用于将离线模型训练引擎、接近在线模型训练引擎和在线模型训练引擎训练得到的用户特征模型进行融合,得到最终用户特征模型。
优选的,所述离线算法库中包含的算法至少有:基于用户的协同过滤算法(User-CF)、基于物品的协同过滤算法(Item-CF)、考虑时间上下文因素的基于用户的协同过滤算法(time-User-CF)、考虑时间上下文因素的基于物品的协同过滤算法(time-Item-CF)、ALS算法;在线推荐算法库中包含的算法至少有:流式基于用户的协同过滤算法(Streaming-User-CF)、流式基于物品的协同过滤算法(Streaming-Item-CF)。
优选的,所述惰性更新机制包括如下步骤:
(1)分析用户活跃频率统计表,获取活跃用户集合;
(2)将得到的最终用户特征模型与活跃用户相结合,为活跃用户生成推荐列表;
(3)将推荐列表保存在Spark RDD中,供Spark SQL进行查询。
优选的,通过惰性更新机制获取推荐列表包括如下步骤:
(a)Spark SQL获取与用户对应的推荐列表,并提取该推荐列表最后一次更新的时间戳timeStamp1;
(b)从用户访问系统时间表中获取用户最后一次通过系统选择物品的时间戳timeStamp2;
(c)对比时间戳timeStamp1和timeStamp2,如果timeStamp1 > timeStamp2,将Spark SQL查询得到的推荐列表返回给该用户;
(d)否则,重新通过训练得到的用户特征模型更新该用户的推荐列表,并将更新后的推荐列表写入推荐列表集合进行存储,并将其返回给用户。
本发明又公开了一种基于Spark的实时推荐方法,其特征在于,包括以下步骤:
S01:统计用户访问的时间和频率,并将相关数据写入用户活跃频率统计表和用户访问系统时间表;
S02:记录用户对系统操作的所有行为,并将用户行为日志数据实时发送给Kafka分布式集群;
S03:根据用户配置参数从离线推荐算法库中选择相应推荐算法对用户行为数据进行训练,得到用户特征模型;
S04:通过Spark Streaming实时接收来自Kafka的最新用户行为数据,并发送给在线推荐算法库中的相应算法进行增量用户特征模型训练;在线模型训练引擎将训练得到的用户特征模型作为基础模型,然后使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;
当用户在配置参数中选择了接近在线推荐模块时,接近在线推荐模块将最新接收到的用户行为数据与在此之前接收到的所有用户行为数据进行融合,将融合之后的用户行为数据发送给接近在线模型训练引擎,选择在线推荐算法库中的接近在线推荐算法进行训练,得到精确用户特征模型;
S06:模型整合模块将离线模型训练引擎、接近在线模型训练引擎和在线模型训练引擎训练得到的用户特征模型进行融合,得到最终用户特征模型;
S07:推荐模块根据得到的最终用户特征模型,并结合惰性更新机制更新用户的推荐列表。
优选的,所述惰性更新机制包括如下步骤:
(1)分析用户活跃频率统计表,获取活跃用户集合;
(2)将得到的最终用户特征模型与活跃用户相结合,为活跃用户生成推荐列表;
(3)将推荐列表保存在Spark RDD中,供Spark SQL进行查询。
优选的,通过惰性更新机制获取推荐列表包括如下步骤:
(a)Spark SQL获取与用户对应的推荐列表,并提取该推荐列表最后一次更新的时间戳timeStamp1;
(b)从用户访问系统时间表中获取用户最后一次通过系统选择物品的时间戳timeStamp2;
(c)对比时间戳timeStamp1和timeStamp2,如果timeStamp1 > timeStamp2,将Spark SQL查询得到的推荐列表返回给该用户;
(d)否则,重新通过训练得到的用户特征模型更新该用户的推荐列表,并将更新后的推荐列表写入推荐列表集合进行存储,并将其返回给用户。
与现有技术相比,本发明的优点是:
1、基于Spark软件分析栈设计的一栈式推荐系统框架利用Spark生态系统中的各组件进行无缝对接,各模块之间的数据通过Spark RDD进行共享,极大降低了各模块间数据共享开销和系统研发与维护成本。离线推荐理模块中,使用目前最高效的内存计算框架Spark取代Hadoop Map Reduce进行离线用户特征模型训练,经实验发现,模型训练效率比传统的Hadoop Map Reduce方案提高了近3倍。在线推荐模块中,本系统设计并实现的基于增量更新的流式推荐算法比传统离线算法的模型更新效率提高了60%以上,ALS算法的推荐准确度提高了3.7%。此外,本系统设计的惰性更新策略以及将推荐结果以RDD Table的形式存储在内存中,并通过Spark SQL进行查询等优化方案极大提高了推荐系统的实时性。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1是基于Spark的实时推荐系统的结构框架示意图;
图2是推荐列表惰性更新策略示意图;
图3是用户访问推荐列表集合获取推荐列表流程示意图;
图4本发明基于Spark的实时推荐系统框架与传统推荐系统的模型训练时间对比图;
图5本发明基于Spark的实时推荐系统框架与传统推荐系统的推荐准确度对比图;
图6本发明基于Spark的实时推荐系统框架与传统推荐系统的性能提升对比图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
实施例:
如图1所示为基于Spark的实时推荐系统框架示意图,主要包括数据采集模块、离线推荐模块、在线推荐模块、模型融合模块、推荐模块等。它借助Spark软件分析栈(BDAS)构建基于Spark的一栈式推荐系统框架。该系统将推荐系统框架划分为离线批处理模块、接近在线推荐模块和在线推荐模块,离线批处理模块采用目前最高效的内存计算框架Spark取代传统批处理框架Hadoop Map Reduce,对用户行为数据进行训练,接近在线推荐模块和在线推荐模块利用Spark Streaming实时接收来自Kafka集群的用户行为数据,并使用基于用户的协同过滤和基于物品的协同过滤等增量算法进行对用户特征模型进行增量更新,各模块之间的数据共享通过Spark RDD的转换来实现。为了进一步提高用户特征模型更新效率,本发明根据各模块对用户特征模型训练时间的实时性要求,分别实现了基于Spark的离线推荐算法库和在线推荐算法库。离线算法库中包含的算法有:基于用户的协同过滤算法(User-CF)、基于物品的协同过滤算法(Item-CF)、考虑时间上下文因素的基于用户的协同过滤算法(time-User-CF)、考虑时间上下文因素的基于物品的协同过滤算法(time-Item-CF)、ALS算法等;在线推荐算法库中包含的算法有:流式基于用户的协同过滤算法(Streaming-User-CF)、流式基于物品的协同过滤算法(Streaming-Item-CF)等。
其中,在线推荐算法库中的流式在线推荐算法主要用于用户特征模型的增量更新,并为用户进行实时推荐。为了进一步提高推荐实时性,本发明引入了推荐列表的惰性更新机制和使用Spark SQL对推荐列表进行查询。
所述基于Spark的实时推荐系统为用户进行推荐包括如下步骤:
(a)当实时推荐系统启动时,首先从配置文件中读取相应配置参数,并启动WebServer为用户提供访问服务;
(b)当用户访问系统时,Web Server统计用户对系统访问的时间和频率,并将相关数据写入用户活跃频率统计表和用户访问系统时间表,这两张表分别用户指导步骤(i)中的用户推荐列表惰性更新;
(c)Web Server记录用户对系统操作的所有行为,并将用户行为日志数据实时发送给Kafka分布式集群;
(d)Kafka集群接收到数据之后,一方面会将数据发送给HBase数据库进行分布式存储,用于离线模块的用户特征模型训练,另一方面会实时发送给在线推荐模块;
(e)离线批处理模块中包含离线推荐算法库,系统会根据用户配置参数从离线推荐算法库中选择相应推荐算法对存储在HBase数据库中的用户行为数据进行训练,得到用户特征模型;
(f)在线推荐模块通过Spark Streaming实时接收来自Kafka的最新用户行为数据,并发送给在线推荐算法库中的相应算法进行增量用户特征模型训练。在线模型训练引擎会将步骤(e)训练得到的用户特征模型作为基础模型,然后使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;
(g)当用户对推荐结果的实时性要求不高,但对推荐结果的精确度要求极高时,可以在配置参数中选择使用在线推荐算法库中的接近在线推荐算法(ALS-Extend算法)进行用户特征模型训练。此时,在线推荐模块会通过Spark Streaming实时接收最新的用户特征数据,并将最新接收到的用户行为数据与在此之前接收到的所有用户行为数据进行融合,将融合之后的用户行为数据发送给接近在线模型训练引擎,选择在线推荐算法库中的接近在线推荐算法进行训练,得到精确用户特征模型;
(h)模型整合模块会将离线模型训练引擎、接近在线模型训练引擎和在线模型训练引擎训练得到的用户特征模型进行融合,得到最终用户特征模型;
(i)推荐模块会利用最终得到的用户特征模型,并结合惰性更新机制更新用户的推荐列表。
惰性更新机制请参考图2,该机制包括如下步骤:
(1)分析用户活跃频率统计表,获取活跃用户集合;
(2)将步骤(h)得到的最终用户特征模型与活跃用户相结合,为活跃用户生成推荐列表;
(3)将推荐列表保存在Spark RDD中,供Spark SQL进行查询。
图3表示用户通过推荐列表集合获取推荐列表流程示意图,用户通过惰性更新机制获取推荐列表包括如下步骤:
(a)用户通过Spark SQL从推荐列表集合RDD table中查询系统为该用户生成的推荐列表;
(b)Spark SQL获取与该用户对应的推荐列表,并提取该推荐列表最后一次更新的时间戳timeStamp1;
(c)从用户访问系统时间表中获取用户最后一次通过系统选择物品的时间戳timeStamp2;
(d)对比时间戳timeStamp1和timeStamp2,如果timeStamp1 > timeStamp2,表示用户推荐列表的更新发生在用户通过系统选择物品之后,也就是说该推荐列表是最新的,那么直接将Spark SQL查询得到的推荐列表返回给该用户;
(e)否则,表示惰性机制导致该用户的推荐列表没有及时更新,所以需要重新通过训练得到的用户特征模型更新该用户的推荐列表,并将更新后的推荐列表写入RDD table进行存储,与此同时,将其返回给用户。
图4是利用内存计算框架Spark和Hadoop MapReduce框架对MovieLens 100K(1,000 Users, 1,700 Items, 100,000 Ratings)数据集分别使用User-CF算法和Item-CF算法进行用户特征模型训练的时间对比图。从图中可以看出,Spark平台的模型训练效率比Hadoop MapReduce平台高3倍左右,这是因为:(1)Spark平台采用了基于内存的计算方式,避免将中间结果写出到磁盘中;(2)采用基于RDD的血统(Lineage)容错机制,节省容错开销;(3)将执行流程生成有向无环图,对任务采用多级调度机制。
图5是利用本发明设计的接近在线推荐算法和原始推荐算法对MovieLens 100K、MovieLens 1M、MovieLens 10M、BookCrossing等公开数据集进行评分预测类型推荐所得到的预测误差对比图。从图中可以看出,本发明设计的接近在线推荐算法ALS-Extend在每一个数据集下的预测误差RMSE均小于原始推荐算法的预测误差。经对比可知,ALS-Extend推荐算法的推荐准确度比ALS算法高3%。
图6是对推荐列表使用Spark SQL从缓存于内存中的RDD Table进行查询的方案与直接将推荐列表写入MySQL,然后使用SQL从MySQL中进行查询的方案性能对比图。从图中可以看出,Spark SQL查询方案的数据查询时间受数据规模变化影响较小,并且查询时间明显小于MySQL方案。这是因为:(1)Spark SQL方案中,推荐列表缓存在内存中,无需访问磁盘,而MySQL方案需要从磁盘中对数据进行查询;(2)Spark SQL利用分布式集群优势,将查询任务分发到各机器上进行并行执行,而MySQL方案直接使用单节点进行查询,所以对数据规模的变化比Spark SQL方案敏感。
综上所述,基于Spark的实时推荐系统框架对推荐系统的实时性具有明显的性能提升。
上述实例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于Spark的实时推荐系统,其特征在于,通过Spark软件分析栈构建基于Spark的一栈式推荐系统框架,包括数据采集模块、离线推荐模块、在线推荐模块和推荐模块,各模块之间的数据共享通过Spark RDD转换;
数据采集模块,用于采集用户行为数据;
所述离线推荐模块,包含离线推荐算法库,根据用户配置参数从离线推荐算法库中选择相应推荐算法对用户行为数据进行训练,得到用户特征模型;
所述在线推荐模块,接收来自Kafka的用户行为数据,并发送给在线推荐算法库中的相应算法进行训练,得到增量用户特征模型;在线模型训练引擎将训练得到的用户特征模型作为基础模型,使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;
所述推荐模块,根据最新用户特征模型,并结合惰性更新机制更新用户推荐列表;
所述惰性更新机制包括如下步骤:
(1)分析用户活跃频率统计表,获取活跃用户集合;
(2)将得到的最终用户特征模型与活跃用户相结合,为活跃用户生成推荐列表;
(3)将推荐列表保存在Spark RDD中,供Spark SQL进行查询。
2.根据权利要求1所述的基于Spark的实时推荐系统,其特征在于,所述在线推荐模块还包括接近在线推荐模块,将最新接收到的用户行为数据与在此之前接收到的所有用户行为数据进行融合,将融合之后的用户行为数据发送给接近在线模型训练引擎,选择在线推荐算法库中的接近在线推荐算法进行训练,得到精确用户特征模型。
3.根据权利要求2所述的基于Spark的实时推荐系统,其特征在于,还包括模型融合模块,用于将离线模型训练引擎、接近在线模型训练引擎和在线模型训练引擎训练得到的用户特征模型进行融合,得到最终用户特征模型。
4.根据权利要求1所述的基于Spark的实时推荐系统,其特征在于,所述离线推荐算法库中包含的算法至少有:基于用户的协同过滤算法(User-CF)、基于物品的协同过滤算法(Item-CF)、考虑时间上下文因素的基于用户的协同过滤算法(time-User-CF)、考虑时间上下文因素的基于物品的协同过滤算法(time-Item-CF)、ALS算法;在线推荐算法库中包含的算法至少有:流式基于用户的协同过滤算法(Streaming-User-CF)、流式基于物品的协同过滤算法(Streaming-Item-CF)。
5.根据权利要求1所述的基于Spark的实时推荐系统,其特征在于,通过惰性更新机制获取推荐列表包括如下步骤:
(a)Spark SQL获取与用户对应的推荐列表,并提取该推荐列表最后一次更新的时间戳timeStamp1;
(b)从用户访问系统时间表中获取用户最后一次通过系统选择物品的时间戳timeStamp2;
(c)对比时间戳timeStamp1和timeStamp2,如果timeStamp1 > timeStamp2,将SparkSQL查询得到的推荐列表返回给该用户;
(d)否则,重新通过训练得到的用户特征模型更新该用户的推荐列表,并将更新后的推荐列表写入推荐列表集合进行存储,并将其返回给用户。
6.一种基于Spark的实时推荐方法,其特征在于,包括以下步骤:
S01:统计用户访问的时间和频率,并将相关数据写入用户活跃频率统计表和用户访问系统时间表;
S02:记录用户对系统操作的所有行为,并将用户行为日志数据实时发送给Kafka分布式集群;
S03:根据用户配置参数从离线推荐算法库中选择相应推荐算法对用户行为数据进行训练,得到用户特征模型;
S04:通过Spark Streaming实时接收来自Kafka的最新用户行为数据,并发送给在线推荐算法库中的相应算法进行增量用户特征模型训练;在线模型训练引擎将训练得到的用户特征模型作为基础模型,然后使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;
S05:当用户在配置参数中选择了接近在线推荐模块时,接近在线推荐模块将最新接收到的用户行为数据与在此之前接收到的所有用户行为数据进行融合,将融合之后的用户行为数据发送给接近在线模型训练引擎,选择在线推荐算法库中的接近在线推荐算法进行训练,得到精确用户特征模型;
S06:模型整合模块将离线模型训练引擎、接近在线模型训练引擎和在线模型训练引擎训练得到的用户特征模型进行融合,得到最终用户特征模型;
S07:推荐模块根据得到的最终用户特征模型,并结合惰性更新机制更新用户的推荐列表;
所述惰性更新机制包括如下步骤:
(1)分析用户活跃频率统计表,获取活跃用户集合;
(2)将得到的最终用户特征模型与活跃用户相结合,为活跃用户生成推荐列表;
(3)将推荐列表保存在Spark RDD中,供Spark SQL进行查询。
7.根据权利要求6所述的基于Spark的实时推荐方法,其特征在于,通过惰性更新机制获取推荐列表包括如下步骤:
(a)Spark SQL获取与用户对应的推荐列表,并提取该推荐列表最后一次更新的时间戳timeStamp1;
(b)从用户访问系统时间表中获取用户最后一次通过系统选择物品的时间戳timeStamp2;
(c)对比时间戳timeStamp1和timeStamp2,如果timeStamp1 > timeStamp2,将SparkSQL查询得到的推荐列表返回给该用户;
(d)否则,重新通过训练得到的用户特征模型更新该用户的推荐列表,并将更新后的推荐列表写入推荐列表集合进行存储,并将其返回给用户。
CN201610465517.7A 2016-06-24 2016-06-24 一种基于Spark的实时推荐系统及方法 Active CN106126641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610465517.7A CN106126641B (zh) 2016-06-24 2016-06-24 一种基于Spark的实时推荐系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610465517.7A CN106126641B (zh) 2016-06-24 2016-06-24 一种基于Spark的实时推荐系统及方法

Publications (2)

Publication Number Publication Date
CN106126641A CN106126641A (zh) 2016-11-16
CN106126641B true CN106126641B (zh) 2019-02-05

Family

ID=57268601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610465517.7A Active CN106126641B (zh) 2016-06-24 2016-06-24 一种基于Spark的实时推荐系统及方法

Country Status (1)

Country Link
CN (1) CN106126641B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407477A (zh) * 2016-11-22 2017-02-15 深圳市互联在线云计算股份有限公司 一种多维互联推荐方法及系统
CN106846191A (zh) * 2016-11-25 2017-06-13 北京粉笔蓝天科技有限公司 一种课程列表的编排方法、系统及服务器
CN106850750B (zh) * 2016-12-26 2020-11-10 北京五八信息技术有限公司 一种实时推送信息的方法和装置
CN106778033B (zh) * 2017-01-10 2019-03-26 南京邮电大学 一种基于Spark平台的Spark Streaming异常温度数据报警方法
CN106851349A (zh) * 2017-03-21 2017-06-13 上海星红桉数据科技有限公司 基于海量跨屏收视行为数据的直播推荐方法
CN107463660B (zh) * 2017-07-31 2020-10-16 广州虎牙信息科技有限公司 产品活跃用户数据测算方法及计算机设备
CN107451267B (zh) * 2017-08-01 2020-02-21 东北大学 一种基于Spark平台的分布式推荐方法
CN107609141B (zh) * 2017-09-20 2020-07-31 国网上海市电力公司 一种对大规模可再生能源数据进行快速概率建模方法
CN107623862B (zh) * 2017-09-21 2021-11-12 广州华多网络科技有限公司 多媒体信息推送控制方法、装置及服务器
CN107807967B (zh) * 2017-10-13 2021-10-22 平安科技(深圳)有限公司 实时推荐方法、电子设备及计算机可读存储介质
CN109816412B (zh) * 2017-11-21 2022-11-29 腾讯科技(深圳)有限公司 一种训练模型生成方法、装置、设备和计算机存储介质
CN108664549A (zh) * 2018-03-29 2018-10-16 阿里巴巴集团控股有限公司 一种大数据处理系统、方法和装置
CN108664558B (zh) * 2018-04-04 2020-05-05 山东科技大学 一种面向大规模用户的网络电视个性化推荐服务方法
CN110427356B (zh) * 2018-04-26 2021-08-13 中移(苏州)软件技术有限公司 一种参数配置方法和设备
CN108876508A (zh) * 2018-05-03 2018-11-23 上海海事大学 一种电商协同过滤推荐方法
CN108647329B (zh) * 2018-05-11 2021-08-10 中国联合网络通信集团有限公司 用户行为数据的处理方法、装置及计算机可读存储介质
CN109034869A (zh) * 2018-06-26 2018-12-18 杭州排列科技有限公司 基于类似受众的实时推荐系统及方法
CN111949349A (zh) * 2018-08-21 2020-11-17 第四范式(北京)技术有限公司 统一地执行特征抽取的方法及系统
CN109034981A (zh) * 2018-08-23 2018-12-18 上海海事大学 一种电商协同过滤推荐方法
CN109408537A (zh) * 2018-10-18 2019-03-01 网易(杭州)网络有限公司 基于Spark SQL的数据处理方法及装置、存储介质及计算设备
CN109635186A (zh) * 2018-11-16 2019-04-16 华南理工大学 一种基于Lambda架构的实时推荐方法
CN109635204A (zh) * 2018-12-21 2019-04-16 上海交通大学 基于协同过滤和长短记忆网络的在线推荐系统
CN109783465B (zh) * 2018-12-25 2023-09-08 吉林动画学院 一种云计算框架下海量三维模型集成系统
CN110020921A (zh) * 2019-04-09 2019-07-16 浩鲸云计算科技股份有限公司 一种ai推荐引擎赋能商品营销方法
CN110442572B (zh) * 2019-06-28 2024-02-02 创新先进技术有限公司 用户特征值的确定方法及装置
CN110457361B (zh) * 2019-07-05 2023-12-05 中国平安人寿保险股份有限公司 特征数据获取方法、装置、计算机设备和存储介质
CN110717093B (zh) * 2019-08-27 2023-04-28 广东工业大学 一种基于Spark的电影推荐系统及方法
CN111506659A (zh) * 2020-04-20 2020-08-07 杭州数澜科技有限公司 一种数据同步的方法、系统和介质
CN111913996B (zh) * 2020-07-14 2023-07-18 中国联合网络通信集团有限公司 数据处理方法、装置、设备及存储介质
CN113709570A (zh) * 2020-09-25 2021-11-26 天翼智慧家庭科技有限公司 基于iptv探针数据来推荐带宽的装置和方法
CN112947853B (zh) * 2021-01-28 2024-03-26 北京达佳互联信息技术有限公司 数据存储方法、装置、服务器、介质及程序产品
CN112818169A (zh) * 2021-02-04 2021-05-18 北京易车互联信息技术有限公司 个性化push平台系统
CN112948450B (zh) * 2021-02-25 2023-04-14 苏宁金融科技(南京)有限公司 用于实时推荐的Flink流式处理引擎方法、装置及计算机设备
CN114238269B (zh) * 2021-12-03 2024-01-23 中兴通讯股份有限公司 数据库参数调整方法、装置、电子设备和存储介质
CN115687794A (zh) * 2022-12-29 2023-02-03 中国科学技术大学 用于推荐物品的学生模型训练方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279603A (zh) * 2015-09-11 2016-01-27 福建师范大学 可动态配置的大数据分析系统及方法
US9298788B1 (en) * 2013-03-11 2016-03-29 DataTorrent, Inc. Checkpointing in distributed streaming platform for real-time applications
CN105608219A (zh) * 2016-01-07 2016-05-25 上海通创信息技术有限公司 一种基于聚类的流式推荐引擎、推荐系统以及推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298788B1 (en) * 2013-03-11 2016-03-29 DataTorrent, Inc. Checkpointing in distributed streaming platform for real-time applications
CN105279603A (zh) * 2015-09-11 2016-01-27 福建师范大学 可动态配置的大数据分析系统及方法
CN105608219A (zh) * 2016-01-07 2016-05-25 上海通创信息技术有限公司 一种基于聚类的流式推荐引擎、推荐系统以及推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于大数据的教育资源个性推荐系统设计与实现;金志福;《中国优秀硕士学位论文全文数据库信息科技辑》;20160315(第3期);第I138-8028页

Also Published As

Publication number Publication date
CN106126641A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
CN106126641B (zh) 一种基于Spark的实时推荐系统及方法
CN107256443B (zh) 基于业务和数据集成的线损实时计算方法
CN106372114B (zh) 一种基于大数据的联机分析处理系统和方法
CN111400326B (zh) 一种智慧城市数据管理系统及其方法
CN107679192A (zh) 多集群协同数据处理方法、系统、存储介质及设备
CN107451861B (zh) 一种大数据下用户上网特征识别的方法
CN104885054B (zh) 大规模并行处理数据库中执行事务的系统和方法
CN103209087B (zh) 分布式日志统计处理方法和系统
CN104850640A (zh) 一种基于HBase的电网设备状态监测数据存储和查询方法及系统
CN110647512B (zh) 一种数据存储和分析方法、装置、设备和可读介质
CN103984745A (zh) 分布式视频垂直搜索方法及系统
CN104885078A (zh) 用于大规模并行处理数据库集群中的两阶段查询优化的方法
CN103345514A (zh) 大数据环境下的流式数据处理方法
CN105930363A (zh) 一种基于html5网页的用户行为分析方法及装置
CN103559300B (zh) 数据的查询方法和查询装置
CN103390038A (zh) 一种基于HBase的构建和检索增量索引的方法
CN104462222A (zh) 一种卡口车辆通行数据的分布式存储方法及系统
CN110083600A (zh) 一种日志收集处理的方法、装置、计算设备及存储介质
CN105323601A (zh) 基于多屏用户行为数据的人员属性标识方法
CN110717093A (zh) 一种基于Spark的电影推荐系统及方法
CN106649687A (zh) 大数据联机分析处理方法及装置
CN104951509A (zh) 一种大数据在线交互式查询方法及系统
CN111382182A (zh) 数据处理方法、装置、电子设备及存储介质
CN111126852A (zh) 一种基于大数据建模的bi应用系统
CN103036921A (zh) 一种用户行为分析系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant