CN106126641A - 一种基于Spark的实时推荐系统及方法 - Google Patents
一种基于Spark的实时推荐系统及方法 Download PDFInfo
- Publication number
- CN106126641A CN106126641A CN201610465517.7A CN201610465517A CN106126641A CN 106126641 A CN106126641 A CN 106126641A CN 201610465517 A CN201610465517 A CN 201610465517A CN 106126641 A CN106126641 A CN 106126641A
- Authority
- CN
- China
- Prior art keywords
- user
- model
- time
- spark
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Spark的实时推荐系统,构建基于Spark的一栈式推荐系统框架,包括数据采集模块、离线推荐模块、在线推荐模块和推荐模块;离线推荐模块,根据用户配置参数从离线推荐算法库中选择相应推荐算法对用户行为数据进行训练,得到用户特征模型;在线推荐模块,将用户行为数据发送给在线推荐算法库中的相应算法进行训练,得到增量用户特征模型;在线模型训练引擎将训练得到的用户特征模型作为基础模型,使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;推荐模块,根据用户特征模型,并结合惰性更新机制更新用户推荐列表。能有效提高推荐结果的准确性和实时性。
Description
技术领域
本发明涉及一种实时推荐系统及方法,具体地涉及一种基于Spark的实时推荐系统及方法。
背景技术
实时推荐系统是指能够实时感知用户兴趣变化,并根据用户兴趣变化实时调整为用户推荐的内容。传统推荐系统一般通过集群使用Hadoop MapReduce对用户行为数据每间隔一天进行一次离线训练,然后使用训练得到的用户特征模型为用户生成推荐列表。这显然无法达到实时推荐需求,无法实时感知用户偏好的变化,从而造成推荐准确度下降。目前,现有的实时推荐系统框架主要有Netflix公司的实时推荐系统框架。
Netflix实时推荐系统框架是一个能高效处理海量用户行为数据,响应用户交互,且推荐方法可配置的推荐系统架构。推荐系统框架分为离线计算、接近在线计算和在线计算三个模块。离线计算模块以Hadoop MapReduce批处理的方式对用户历史行为数据进行训练,得到用户特征模型,对实时性要求较弱。在线计算模块对实时性要求较高,主要用于快速响应用户交互。接近在线计算模块主要用于支持推荐准确度较高,但实时性要求略低于在线推荐的应用场景。
Netflix实时推荐系统存在的问题是:(1)在线计算模块主要用户相应用户交互,缺乏利用最新的用户行为数据对用户特征模型进行更新,故不能实时感知用户兴趣的变化(2)各模块采用不同类型的系统分别对数据进行处理,处理结果无法在各模块之间实现无缝共享;(3)同一个集群中对各系统所需资源的协调与分配比较困难。
发明内容
针对上述存在的技术问题,本发明目的是:提供了一种基于Spark的实时推荐系统及方法,本发明采用计算框架Spark加速用户特征模型的训练过程,并将推荐系统框架划分为离线批处理模块、接近在线推荐模块和在线推荐模块,各模块之间的数据流通过SparkRDD的转换来实现,能有效提高推荐结果的准确性和实时性。
本发明的技术方案是:
一种基于Spark的实时推荐系统,其特征在于,通过Spark软件分析栈构建基于Spark的一栈式推荐系统框架,包括数据采集模块、离线推荐模块、在线推荐模块和推荐模块,各模块之间的数据共享通过Spark RDD转换;
数据采集模块,用于采集用户行为数据;
所述离线推荐模块,包含离线推荐算法库,根据用户配置参数从离线推荐算法库中选择相应推荐算法对用户行为数据进行训练,得到用户特征模型;
所述在线推荐模块,接收来自Kafka的用户行为数据,并发送给在线推荐算法库中的相应算法进行训练,得到增量用户特征模型;在线模型训练引擎将训练得到的用户特征模型作为基础模型,使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;
所述推荐模块,根据用户特征模型,并结合惰性更新机制更新用户推荐列表。
优选的,所述在线推荐模块还包括接近在线推荐模块,将最新接收到的用户行为数据与在此之前接收到的所有用户行为数据进行融合,将融合之后的用户行为数据发送给接近在线模型训练引擎,选择在线推荐算法库中的接近在线推荐算法进行训练,得到精确用户特征模型。
优选的,还包括模型融合模块,用于将离线模型训练引擎、接近在线模型训练引擎和在线模型训练引擎训练得到的用户特征模型进行融合,得到最终用户特征模型。
优选的,所述离线算法库中包含的算法至少有:基于用户的协同过滤算法(User-CF)、基于物品的协同过滤算法(Item-CF)、考虑时间上下文因素的基于用户的协同过滤算法(time-User-CF)、考虑时间上下文因素的基于物品的协同过滤算法(time-Item-CF)、ALS算法;在线推荐算法库中包含的算法至少有:流式基于用户的协同过滤算法(Streaming-User-CF)、流式基于物品的协同过滤算法(Streaming-Item-CF)。
优选的,所述惰性更新机制包括如下步骤:
(1)分析用户活跃频率统计表,获取活跃用户集合;
(2)将得到的最终用户特征模型与活跃用户相结合,为活跃用户生成推荐列表;
(3)将推荐列表保存在Spark RDD中,供Spark SQL进行查询。
优选的,通过惰性更新机制获取推荐列表包括如下步骤:
(a)Spark SQL获取与用户对应的推荐列表,并提取该推荐列表最后一次更新的时间戳timeStamp1;
(b)从用户访问系统时间表中获取用户最后一次通过系统选择物品的时间戳timeStamp2;
(c)对比时间戳timeStamp1和timeStamp2,如果timeStamp1 > timeStamp2,将SparkSQL查询得到的推荐列表返回给该用户;
(d)否则,重新通过训练得到的用户特征模型更新该用户的推荐列表,并将更新后的推荐列表写入推荐列表集合进行存储,并将其返回给用户。
本发明又公开了一种基于Spark的实时推荐方法,其特征在于,包括以下步骤:
S01:统计用户访问的时间和频率,并将相关数据写入用户活跃频率统计表和用户访问系统时间表;
S02:记录用户对系统操作的所有行为,并将用户行为日志数据实时发送给Kafka分布式集群;
S03:根据用户配置参数从离线推荐算法库中选择相应推荐算法对用户行为数据进行训练,得到用户特征模型;
S04:通过Spark Streaming实时接收来自Kafka的最新用户行为数据,并发送给在线推荐算法库中的相应算法进行增量用户特征模型训练;在线模型训练引擎将训练得到的用户特征模型作为基础模型,然后使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;
当用户在配置参数中选择了接近在线推荐模块时,接近在线推荐模块将最新接收到的用户行为数据与在此之前接收到的所有用户行为数据进行融合,将融合之后的用户行为数据发送给接近在线模型训练引擎,选择在线推荐算法库中的接近在线推荐算法进行训练,得到精确用户特征模型;
S06:模型整合模块将离线模型训练引擎、接近在线模型训练引擎和在线模型训练引擎训练得到的用户特征模型进行融合,得到最终用户特征模型;
S07:推荐模块根据得到的最终用户特征模型,并结合惰性更新机制更新用户的推荐列表。
优选的,所述惰性更新机制包括如下步骤:
(1)分析用户活跃频率统计表,获取活跃用户集合;
(2)将得到的最终用户特征模型与活跃用户相结合,为活跃用户生成推荐列表;
(3)将推荐列表保存在Spark RDD中,供Spark SQL进行查询。
优选的,通过惰性更新机制获取推荐列表包括如下步骤:
(a)Spark SQL获取与用户对应的推荐列表,并提取该推荐列表最后一次更新的时间戳timeStamp1;
(b)从用户访问系统时间表中获取用户最后一次通过系统选择物品的时间戳timeStamp2;
(c)对比时间戳timeStamp1和timeStamp2,如果timeStamp1 > timeStamp2,将SparkSQL查询得到的推荐列表返回给该用户;
(d)否则,重新通过训练得到的用户特征模型更新该用户的推荐列表,并将更新后的推荐列表写入推荐列表集合进行存储,并将其返回给用户。
与现有技术相比,本发明的优点是:
1、基于Spark软件分析栈设计的一栈式推荐系统框架利用Spark生态系统中的各组件进行无缝对接,各模块之间的数据通过Spark RDD进行共享,极大降低了各模块间数据共享开销和系统研发与维护成本。离线推荐理模块中,使用目前最高效的内存计算框架Spark取代Hadoop Map Reduce进行离线用户特征模型训练,经实验发现,模型训练效率比传统的Hadoop Map Reduce方案提高了近3倍。在线推荐模块中,本系统设计并实现的基于增量更新的流式推荐算法比传统离线算法的模型更新效率提高了60%以上,ALS算法的推荐准确度提高了3.7%。此外,本系统设计的惰性更新策略以及将推荐结果以RDD Table的形式存储在内存中,并通过Spark SQL进行查询等优化方案极大提高了推荐系统的实时性。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1是基于Spark的实时推荐系统的结构框架示意图;
图2是推荐列表惰性更新策略示意图;
图3是用户访问推荐列表集合获取推荐列表流程示意图;
图4本发明基于Spark的实时推荐系统框架与传统推荐系统的模型训练时间对比图;
图5本发明基于Spark的实时推荐系统框架与传统推荐系统的推荐准确度对比图;
图6本发明基于Spark的实时推荐系统框架与传统推荐系统的性能提升对比图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
实施例:
如图1所示为基于Spark的实时推荐系统框架示意图,主要包括数据采集模块、离线推荐模块、在线推荐模块、模型融合模块、推荐模块等。它借助Spark软件分析栈(BDAS)构建基于Spark的一栈式推荐系统框架。该系统将推荐系统框架划分为离线批处理模块、接近在线推荐模块和在线推荐模块,离线批处理模块采用目前最高效的内存计算框架Spark取代传统批处理框架Hadoop Map Reduce,对用户行为数据进行训练,接近在线推荐模块和在线推荐模块利用Spark Streaming实时接收来自Kafka集群的用户行为数据,并使用基于用户的协同过滤和基于物品的协同过滤等增量算法进行对用户特征模型进行增量更新,各模块之间的数据共享通过Spark RDD的转换来实现。为了进一步提高用户特征模型更新效率,本发明根据各模块对用户特征模型训练时间的实时性要求,分别实现了基于Spark的离线推荐算法库和在线推荐算法库。离线算法库中包含的算法有:基于用户的协同过滤算法(User-CF)、基于物品的协同过滤算法(Item-CF)、考虑时间上下文因素的基于用户的协同过滤算法(time-User-CF)、考虑时间上下文因素的基于物品的协同过滤算法(time-Item-CF)、ALS算法等;在线推荐算法库中包含的算法有:流式基于用户的协同过滤算法(Streaming-User-CF)、流式基于物品的协同过滤算法(Streaming-Item-CF)等。
其中,在线推荐算法库中的流式在线推荐算法主要用于用户特征模型的增量更新,并为用户进行实时推荐。为了进一步提高推荐实时性,本发明引入了推荐列表的惰性更新机制和使用Spark SQL对推荐列表进行查询。
所述基于Spark的实时推荐系统为用户进行推荐包括如下步骤:
(a)当实时推荐系统启动时,首先从配置文件中读取相应配置参数,并启动Web Server为用户提供访问服务;
(b)当用户访问系统时,Web Server统计用户对系统访问的时间和频率,并将相关数据写入用户活跃频率统计表和用户访问系统时间表,这两张表分别用户指导步骤(i)中的用户推荐列表惰性更新;
(c)Web Server记录用户对系统操作的所有行为,并将用户行为日志数据实时发送给Kafka分布式集群;
(d)Kafka集群接收到数据之后,一方面会将数据发送给HBase数据库进行分布式存储,用于离线模块的用户特征模型训练,另一方面会实时发送给在线推荐模块;
(e)离线批处理模块中包含离线推荐算法库,系统会根据用户配置参数从离线推荐算法库中选择相应推荐算法对存储在HBase数据库中的用户行为数据进行训练,得到用户特征模型;
(f)在线推荐模块通过Spark Streaming实时接收来自Kafka的最新用户行为数据,并发送给在线推荐算法库中的相应算法进行增量用户特征模型训练。在线模型训练引擎会将步骤(e)训练得到的用户特征模型作为基础模型,然后使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;
(g)当用户对推荐结果的实时性要求不高,但对推荐结果的精确度要求极高时,可以在配置参数中选择使用在线推荐算法库中的接近在线推荐算法(ALS-Extend算法)进行用户特征模型训练。此时,在线推荐模块会通过Spark Streaming实时接收最新的用户特征数据,并将最新接收到的用户行为数据与在此之前接收到的所有用户行为数据进行融合,将融合之后的用户行为数据发送给接近在线模型训练引擎,选择在线推荐算法库中的接近在线推荐算法进行训练,得到精确用户特征模型;
(h)模型整合模块会将离线模型训练引擎、接近在线模型训练引擎和在线模型训练引擎训练得到的用户特征模型进行融合,得到最终用户特征模型;
(i)推荐模块会利用最终得到的用户特征模型,并结合惰性更新机制更新用户的推荐列表。
惰性更新机制请参考图2,该机制包括如下步骤:
(1)分析用户活跃频率统计表,获取活跃用户集合;
(2)将步骤(h)得到的最终用户特征模型与活跃用户相结合,为活跃用户生成推荐列表;
(3)将推荐列表保存在Spark RDD中,供Spark SQL进行查询。
图3表示用户通过推荐列表集合获取推荐列表流程示意图,用户通过惰性更新机制获取推荐列表包括如下步骤:
(a)用户通过Spark SQL从推荐列表集合RDD table中查询系统为该用户生成的推荐列表;
(b)Spark SQL获取与该用户对应的推荐列表,并提取该推荐列表最后一次更新的时间戳timeStamp1;
(c)从用户访问系统时间表中获取用户最后一次通过系统选择物品的时间戳timeStamp2;
(d)对比时间戳timeStamp1和timeStamp2,如果timeStamp1 > timeStamp2,表示用户推荐列表的更新发生在用户通过系统选择物品之后,也就是说该推荐列表是最新的,那么直接将Spark SQL查询得到的推荐列表返回给该用户;
(e)否则,表示惰性机制导致该用户的推荐列表没有及时更新,所以需要重新通过训练得到的用户特征模型更新该用户的推荐列表,并将更新后的推荐列表写入RDD table进行存储,与此同时,将其返回给用户。
图4是利用内存计算框架Spark和Hadoop MapReduce框架对MovieLens 100K(1,000 Users, 1,700 Items, 100,000 Ratings)数据集分别使用User-CF算法和Item-CF算法进行用户特征模型训练的时间对比图。从图中可以看出,Spark平台的模型训练效率比Hadoop MapReduce平台高3倍左右,这是因为:(1)Spark平台采用了基于内存的计算方式,避免将中间结果写出到磁盘中;(2)采用基于RDD的血统(Lineage)容错机制,节省容错开销;(3)将执行流程生成有向无环图,对任务采用多级调度机制。
图5是利用本发明设计的接近在线推荐算法和原始推荐算法对MovieLens 100K、MovieLens 1M、MovieLens 10M、BookCrossing等公开数据集进行评分预测类型推荐所得到的预测误差对比图。从图中可以看出,本发明设计的接近在线推荐算法ALS-Extend在每一个数据集下的预测误差RMSE均小于原始推荐算法的预测误差。经对比可知,ALS-Extend推荐算法的推荐准确度比ALS算法高3%。
图6是对推荐列表使用Spark SQL从缓存于内存中的RDD Table进行查询的方案与直接将推荐列表写入MySQL,然后使用SQL从MySQL中进行查询的方案性能对比图。从图中可以看出,Spark SQL查询方案的数据查询时间受数据规模变化影响较小,并且查询时间明显小于MySQL方案。这是因为:(1)Spark SQL方案中,推荐列表缓存在内存中,无需访问磁盘,而MySQL方案需要从磁盘中对数据进行查询;(2)Spark SQL利用分布式集群优势,将查询任务分发到各机器上进行并行执行,而MySQL方案直接使用单节点进行查询,所以对数据规模的变化比Spark SQL方案敏感。
综上所述,基于Spark的实时推荐系统框架对推荐系统的实时性具有明显的性能提升。
上述实例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (9)
1. 一种基于Spark的实时推荐系统,其特征在于,通过Spark软件分析栈构建基于Spark的一栈式推荐系统框架,包括数据采集模块、离线推荐模块、在线推荐模块和推荐模块,各模块之间的数据共享通过Spark RDD转换;
数据采集模块,用于采集用户行为数据;
所述离线推荐模块,包含离线推荐算法库,根据用户配置参数从离线推荐算法库中选择相应推荐算法对用户行为数据进行训练,得到用户特征模型;
所述在线推荐模块,接收来自Kafka的用户行为数据,并发送给在线推荐算法库中的相应算法进行训练,得到增量用户特征模型;在线模型训练引擎将训练得到的用户特征模型作为基础模型,使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;
所述推荐模块,根据用户特征模型,并结合惰性更新机制更新用户推荐列表。
2.根据权利要求1所述的基于Spark的实时推荐系统,其特征在于,所述在线推荐模块还包括接近在线推荐模块,将最新接收到的用户行为数据与在此之前接收到的所有用户行为数据进行融合,将融合之后的用户行为数据发送给接近在线模型训练引擎,选择在线推荐算法库中的接近在线推荐算法进行训练,得到精确用户特征模型。
3.根据权利要求2所述的基于Spark的实时推荐系统,其特征在于,还包括模型融合模块,用于将离线模型训练引擎、接近在线模型训练引擎和在线模型训练引擎训练得到的用户特征模型进行融合,得到最终用户特征模型。
4.根据权利要求1所述的基于Spark的实时推荐系统,其特征在于,所述离线算法库中包含的算法至少有:基于用户的协同过滤算法(User-CF)、基于物品的协同过滤算法(Item-CF)、考虑时间上下文因素的基于用户的协同过滤算法(time-User-CF)、考虑时间上下文因素的基于物品的协同过滤算法(time-Item-CF)、ALS算法;在线推荐算法库中包含的算法至少有:流式基于用户的协同过滤算法(Streaming-User-CF)、流式基于物品的协同过滤算法(Streaming-Item-CF)。
5.根据权利要求3所述的基于Spark的实时推荐系统,其特征在于,所述惰性更新机制包括如下步骤:
(1)分析用户活跃频率统计表,获取活跃用户集合;
(2)将得到的最终用户特征模型与活跃用户相结合,为活跃用户生成推荐列表;
(3)将推荐列表保存在Spark RDD中,供Spark SQL进行查询。
6.根据权利要求1所述的基于Spark的实时推荐系统,其特征在于,通过惰性更新机制获取推荐列表包括如下步骤:
(a)Spark SQL获取与用户对应的推荐列表,并提取该推荐列表最后一次更新的时间戳timeStamp1;
(b)从用户访问系统时间表中获取用户最后一次通过系统选择物品的时间戳timeStamp2;
(c)对比时间戳timeStamp1和timeStamp2,如果timeStamp1 > timeStamp2,将SparkSQL查询得到的推荐列表返回给该用户;
(d)否则,重新通过训练得到的用户特征模型更新该用户的推荐列表,并将更新后的推荐列表写入推荐列表集合进行存储,并将其返回给用户。
7.一种基于Spark的实时推荐方法,其特征在于,包括以下步骤:
S01:统计用户访问的时间和频率,并将相关数据写入用户活跃频率统计表和用户访问系统时间表;
S02:记录用户对系统操作的所有行为,并将用户行为日志数据实时发送给Kafka分布式集群;
S03:根据用户配置参数从离线推荐算法库中选择相应推荐算法对用户行为数据进行训练,得到用户特征模型;
S04:通过Spark Streaming实时接收来自Kafka的最新用户行为数据,并发送给在线推荐算法库中的相应算法进行增量用户特征模型训练;在线模型训练引擎将训练得到的用户特征模型作为基础模型,然后使用流式增量推荐算法利用最新接收到的用户行为数据对基础模型进行增量更新,得到最新用户特征模型;
S05:当用户在配置参数中选择了接近在线推荐模块时,接近在线推荐模块将最新接收到的用户行为数据与在此之前接收到的所有用户行为数据进行融合,将融合之后的用户行为数据发送给接近在线模型训练引擎,选择在线推荐算法库中的接近在线推荐算法进行训练,得到精确用户特征模型;
S06:模型整合模块将离线模型训练引擎、接近在线模型训练引擎和在线模型训练引擎训练得到的用户特征模型进行融合,得到最终用户特征模型;
S07:推荐模块根据得到的最终用户特征模型,并结合惰性更新机制更新用户的推荐列表。
8.根据权利要求7所述的基于Spark的实时推荐方法,其特征在于,所述惰性更新机制包括如下步骤:
(1)分析用户活跃频率统计表,获取活跃用户集合;
(2)将得到的最终用户特征模型与活跃用户相结合,为活跃用户生成推荐列表;
(3)将推荐列表保存在Spark RDD中,供Spark SQL进行查询。
9.根据权利要求7所述的基于Spark的实时推荐方法,其特征在于,通过惰性更新机制获取推荐列表包括如下步骤:
(a)Spark SQL获取与用户对应的推荐列表,并提取该推荐列表最后一次更新的时间戳timeStamp1;
(b)从用户访问系统时间表中获取用户最后一次通过系统选择物品的时间戳timeStamp2;
(c)对比时间戳timeStamp1和timeStamp2,如果timeStamp1 > timeStamp2,将SparkSQL查询得到的推荐列表返回给该用户;
(d)否则,重新通过训练得到的用户特征模型更新该用户的推荐列表,并将更新后的推荐列表写入推荐列表集合进行存储,并将其返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610465517.7A CN106126641B (zh) | 2016-06-24 | 2016-06-24 | 一种基于Spark的实时推荐系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610465517.7A CN106126641B (zh) | 2016-06-24 | 2016-06-24 | 一种基于Spark的实时推荐系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106126641A true CN106126641A (zh) | 2016-11-16 |
CN106126641B CN106126641B (zh) | 2019-02-05 |
Family
ID=57268601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610465517.7A Active CN106126641B (zh) | 2016-06-24 | 2016-06-24 | 一种基于Spark的实时推荐系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126641B (zh) |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407477A (zh) * | 2016-11-22 | 2017-02-15 | 深圳市互联在线云计算股份有限公司 | 一种多维互联推荐方法及系统 |
CN106778033A (zh) * | 2017-01-10 | 2017-05-31 | 南京邮电大学 | 一种基于Spark平台的Spark Streaming异常温度数据报警方法 |
CN106846191A (zh) * | 2016-11-25 | 2017-06-13 | 北京粉笔蓝天科技有限公司 | 一种课程列表的编排方法、系统及服务器 |
CN106851349A (zh) * | 2017-03-21 | 2017-06-13 | 上海星红桉数据科技有限公司 | 基于海量跨屏收视行为数据的直播推荐方法 |
CN107451267A (zh) * | 2017-08-01 | 2017-12-08 | 东北大学 | 一种基于Spark平台的分布式推荐方法 |
CN107463660A (zh) * | 2017-07-31 | 2017-12-12 | 广州虎牙信息科技有限公司 | 产品活跃用户数据测算方法及计算机设备 |
CN107623862A (zh) * | 2017-09-21 | 2018-01-23 | 广州华多网络科技有限公司 | 多媒体信息推送控制方法、装置及服务器 |
CN107807967A (zh) * | 2017-10-13 | 2018-03-16 | 平安科技(深圳)有限公司 | 实时推荐方法、电子设备及计算机可读存储介质 |
CN108647329A (zh) * | 2018-05-11 | 2018-10-12 | 中国联合网络通信集团有限公司 | 用户行为数据的处理方法、装置及计算机可读存储介质 |
CN108664549A (zh) * | 2018-03-29 | 2018-10-16 | 阿里巴巴集团控股有限公司 | 一种大数据处理系统、方法和装置 |
CN108664558A (zh) * | 2018-04-04 | 2018-10-16 | 山东科技大学 | 一种面向大规模用户的网络电视个性化推荐服务方法 |
CN108876508A (zh) * | 2018-05-03 | 2018-11-23 | 上海海事大学 | 一种电商协同过滤推荐方法 |
CN109034869A (zh) * | 2018-06-26 | 2018-12-18 | 杭州排列科技有限公司 | 基于类似受众的实时推荐系统及方法 |
CN109034981A (zh) * | 2018-08-23 | 2018-12-18 | 上海海事大学 | 一种电商协同过滤推荐方法 |
CN109144648A (zh) * | 2018-08-21 | 2019-01-04 | 第四范式(北京)技术有限公司 | 统一地执行特征抽取的方法及系统 |
CN109408537A (zh) * | 2018-10-18 | 2019-03-01 | 网易(杭州)网络有限公司 | 基于Spark SQL的数据处理方法及装置、存储介质及计算设备 |
WO2019056887A1 (zh) * | 2017-09-20 | 2019-03-28 | 国网上海市电力公司 | 对大规模可再生能源数据进行概率建模的方法 |
CN109635204A (zh) * | 2018-12-21 | 2019-04-16 | 上海交通大学 | 基于协同过滤和长短记忆网络的在线推荐系统 |
CN109635186A (zh) * | 2018-11-16 | 2019-04-16 | 华南理工大学 | 一种基于Lambda架构的实时推荐方法 |
CN109783465A (zh) * | 2018-12-25 | 2019-05-21 | 同济大学 | 一种云计算框架下海量三维模型集成平台 |
CN109816412A (zh) * | 2017-11-21 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 一种训练模型生成方法、装置、设备和计算机存储介质 |
CN110020921A (zh) * | 2019-04-09 | 2019-07-16 | 浩鲸云计算科技股份有限公司 | 一种ai推荐引擎赋能商品营销方法 |
CN110427356A (zh) * | 2018-04-26 | 2019-11-08 | 中移(苏州)软件技术有限公司 | 一种参数配置方法和设备 |
CN110442572A (zh) * | 2019-06-28 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 用户特征值的确定方法及装置 |
CN110457361A (zh) * | 2019-07-05 | 2019-11-15 | 中国平安人寿保险股份有限公司 | 特征数据获取方法、装置、计算机设备和存储介质 |
CN110717093A (zh) * | 2019-08-27 | 2020-01-21 | 广东工业大学 | 一种基于Spark的电影推荐系统及方法 |
CN111262953A (zh) * | 2016-12-26 | 2020-06-09 | 北京五八信息技术有限公司 | 一种实时推送信息的方法和装置 |
CN111506659A (zh) * | 2020-04-20 | 2020-08-07 | 杭州数澜科技有限公司 | 一种数据同步的方法、系统和介质 |
CN111913996A (zh) * | 2020-07-14 | 2020-11-10 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、设备及存储介质 |
CN112818169A (zh) * | 2021-02-04 | 2021-05-18 | 北京易车互联信息技术有限公司 | 个性化push平台系统 |
CN112948450A (zh) * | 2021-02-25 | 2021-06-11 | 苏宁金融科技(南京)有限公司 | 用于实时推荐的Flink流式处理引擎方法、装置及计算机设备 |
CN112947853A (zh) * | 2021-01-28 | 2021-06-11 | 北京达佳互联信息技术有限公司 | 数据存储方法、装置、服务器、介质及程序产品 |
CN113709570A (zh) * | 2020-09-25 | 2021-11-26 | 天翼智慧家庭科技有限公司 | 基于iptv探针数据来推荐带宽的装置和方法 |
CN114238269A (zh) * | 2021-12-03 | 2022-03-25 | 中兴通讯股份有限公司 | 数据库参数调整方法、装置、电子设备和存储介质 |
CN115687794A (zh) * | 2022-12-29 | 2023-02-03 | 中国科学技术大学 | 用于推荐物品的学生模型训练方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279603A (zh) * | 2015-09-11 | 2016-01-27 | 福建师范大学 | 可动态配置的大数据分析系统及方法 |
US9298788B1 (en) * | 2013-03-11 | 2016-03-29 | DataTorrent, Inc. | Checkpointing in distributed streaming platform for real-time applications |
CN105608219A (zh) * | 2016-01-07 | 2016-05-25 | 上海通创信息技术有限公司 | 一种基于聚类的流式推荐引擎、推荐系统以及推荐方法 |
-
2016
- 2016-06-24 CN CN201610465517.7A patent/CN106126641B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9298788B1 (en) * | 2013-03-11 | 2016-03-29 | DataTorrent, Inc. | Checkpointing in distributed streaming platform for real-time applications |
CN105279603A (zh) * | 2015-09-11 | 2016-01-27 | 福建师范大学 | 可动态配置的大数据分析系统及方法 |
CN105608219A (zh) * | 2016-01-07 | 2016-05-25 | 上海通创信息技术有限公司 | 一种基于聚类的流式推荐引擎、推荐系统以及推荐方法 |
Non-Patent Citations (1)
Title |
---|
金志福: "基于大数据的教育资源个性推荐系统设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407477A (zh) * | 2016-11-22 | 2017-02-15 | 深圳市互联在线云计算股份有限公司 | 一种多维互联推荐方法及系统 |
CN106846191A (zh) * | 2016-11-25 | 2017-06-13 | 北京粉笔蓝天科技有限公司 | 一种课程列表的编排方法、系统及服务器 |
CN111262953B (zh) * | 2016-12-26 | 2022-09-02 | 北京五八信息技术有限公司 | 一种实时推送信息的方法和装置 |
CN111262953A (zh) * | 2016-12-26 | 2020-06-09 | 北京五八信息技术有限公司 | 一种实时推送信息的方法和装置 |
CN106778033A (zh) * | 2017-01-10 | 2017-05-31 | 南京邮电大学 | 一种基于Spark平台的Spark Streaming异常温度数据报警方法 |
CN106778033B (zh) * | 2017-01-10 | 2019-03-26 | 南京邮电大学 | 一种基于Spark平台的Spark Streaming异常温度数据报警方法 |
CN106851349A (zh) * | 2017-03-21 | 2017-06-13 | 上海星红桉数据科技有限公司 | 基于海量跨屏收视行为数据的直播推荐方法 |
CN107463660A (zh) * | 2017-07-31 | 2017-12-12 | 广州虎牙信息科技有限公司 | 产品活跃用户数据测算方法及计算机设备 |
CN107463660B (zh) * | 2017-07-31 | 2020-10-16 | 广州虎牙信息科技有限公司 | 产品活跃用户数据测算方法及计算机设备 |
CN107451267B (zh) * | 2017-08-01 | 2020-02-21 | 东北大学 | 一种基于Spark平台的分布式推荐方法 |
CN107451267A (zh) * | 2017-08-01 | 2017-12-08 | 东北大学 | 一种基于Spark平台的分布式推荐方法 |
WO2019056887A1 (zh) * | 2017-09-20 | 2019-03-28 | 国网上海市电力公司 | 对大规模可再生能源数据进行概率建模的方法 |
CN107623862A (zh) * | 2017-09-21 | 2018-01-23 | 广州华多网络科技有限公司 | 多媒体信息推送控制方法、装置及服务器 |
CN107623862B (zh) * | 2017-09-21 | 2021-11-12 | 广州华多网络科技有限公司 | 多媒体信息推送控制方法、装置及服务器 |
CN107807967B (zh) * | 2017-10-13 | 2021-10-22 | 平安科技(深圳)有限公司 | 实时推荐方法、电子设备及计算机可读存储介质 |
CN107807967A (zh) * | 2017-10-13 | 2018-03-16 | 平安科技(深圳)有限公司 | 实时推荐方法、电子设备及计算机可读存储介质 |
CN109816412A (zh) * | 2017-11-21 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 一种训练模型生成方法、装置、设备和计算机存储介质 |
CN108664549A (zh) * | 2018-03-29 | 2018-10-16 | 阿里巴巴集团控股有限公司 | 一种大数据处理系统、方法和装置 |
CN108664558A (zh) * | 2018-04-04 | 2018-10-16 | 山东科技大学 | 一种面向大规模用户的网络电视个性化推荐服务方法 |
CN108664558B (zh) * | 2018-04-04 | 2020-05-05 | 山东科技大学 | 一种面向大规模用户的网络电视个性化推荐服务方法 |
CN110427356B (zh) * | 2018-04-26 | 2021-08-13 | 中移(苏州)软件技术有限公司 | 一种参数配置方法和设备 |
CN110427356A (zh) * | 2018-04-26 | 2019-11-08 | 中移(苏州)软件技术有限公司 | 一种参数配置方法和设备 |
CN108876508A (zh) * | 2018-05-03 | 2018-11-23 | 上海海事大学 | 一种电商协同过滤推荐方法 |
CN108647329B (zh) * | 2018-05-11 | 2021-08-10 | 中国联合网络通信集团有限公司 | 用户行为数据的处理方法、装置及计算机可读存储介质 |
CN108647329A (zh) * | 2018-05-11 | 2018-10-12 | 中国联合网络通信集团有限公司 | 用户行为数据的处理方法、装置及计算机可读存储介质 |
CN109034869A (zh) * | 2018-06-26 | 2018-12-18 | 杭州排列科技有限公司 | 基于类似受众的实时推荐系统及方法 |
CN109144648A (zh) * | 2018-08-21 | 2019-01-04 | 第四范式(北京)技术有限公司 | 统一地执行特征抽取的方法及系统 |
CN109034981A (zh) * | 2018-08-23 | 2018-12-18 | 上海海事大学 | 一种电商协同过滤推荐方法 |
CN109408537A (zh) * | 2018-10-18 | 2019-03-01 | 网易(杭州)网络有限公司 | 基于Spark SQL的数据处理方法及装置、存储介质及计算设备 |
CN109635186A (zh) * | 2018-11-16 | 2019-04-16 | 华南理工大学 | 一种基于Lambda架构的实时推荐方法 |
CN109635204A (zh) * | 2018-12-21 | 2019-04-16 | 上海交通大学 | 基于协同过滤和长短记忆网络的在线推荐系统 |
CN109783465B (zh) * | 2018-12-25 | 2023-09-08 | 吉林动画学院 | 一种云计算框架下海量三维模型集成系统 |
CN109783465A (zh) * | 2018-12-25 | 2019-05-21 | 同济大学 | 一种云计算框架下海量三维模型集成平台 |
CN110020921A (zh) * | 2019-04-09 | 2019-07-16 | 浩鲸云计算科技股份有限公司 | 一种ai推荐引擎赋能商品营销方法 |
CN110442572A (zh) * | 2019-06-28 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 用户特征值的确定方法及装置 |
CN110442572B (zh) * | 2019-06-28 | 2024-02-02 | 创新先进技术有限公司 | 用户特征值的确定方法及装置 |
CN110457361A (zh) * | 2019-07-05 | 2019-11-15 | 中国平安人寿保险股份有限公司 | 特征数据获取方法、装置、计算机设备和存储介质 |
CN110457361B (zh) * | 2019-07-05 | 2023-12-05 | 中国平安人寿保险股份有限公司 | 特征数据获取方法、装置、计算机设备和存储介质 |
CN110717093B (zh) * | 2019-08-27 | 2023-04-28 | 广东工业大学 | 一种基于Spark的电影推荐系统及方法 |
CN110717093A (zh) * | 2019-08-27 | 2020-01-21 | 广东工业大学 | 一种基于Spark的电影推荐系统及方法 |
CN111506659A (zh) * | 2020-04-20 | 2020-08-07 | 杭州数澜科技有限公司 | 一种数据同步的方法、系统和介质 |
CN111913996A (zh) * | 2020-07-14 | 2020-11-10 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、设备及存储介质 |
CN111913996B (zh) * | 2020-07-14 | 2023-07-18 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113709570A (zh) * | 2020-09-25 | 2021-11-26 | 天翼智慧家庭科技有限公司 | 基于iptv探针数据来推荐带宽的装置和方法 |
CN112947853A (zh) * | 2021-01-28 | 2021-06-11 | 北京达佳互联信息技术有限公司 | 数据存储方法、装置、服务器、介质及程序产品 |
CN112947853B (zh) * | 2021-01-28 | 2024-03-26 | 北京达佳互联信息技术有限公司 | 数据存储方法、装置、服务器、介质及程序产品 |
CN112818169A (zh) * | 2021-02-04 | 2021-05-18 | 北京易车互联信息技术有限公司 | 个性化push平台系统 |
CN112948450A (zh) * | 2021-02-25 | 2021-06-11 | 苏宁金融科技(南京)有限公司 | 用于实时推荐的Flink流式处理引擎方法、装置及计算机设备 |
CN112948450B (zh) * | 2021-02-25 | 2023-04-14 | 苏宁金融科技(南京)有限公司 | 用于实时推荐的Flink流式处理引擎方法、装置及计算机设备 |
CN114238269A (zh) * | 2021-12-03 | 2022-03-25 | 中兴通讯股份有限公司 | 数据库参数调整方法、装置、电子设备和存储介质 |
CN114238269B (zh) * | 2021-12-03 | 2024-01-23 | 中兴通讯股份有限公司 | 数据库参数调整方法、装置、电子设备和存储介质 |
CN115687794A (zh) * | 2022-12-29 | 2023-02-03 | 中国科学技术大学 | 用于推荐物品的学生模型训练方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106126641B (zh) | 2019-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106126641A (zh) | 一种基于Spark的实时推荐系统及方法 | |
Vera-Baquero et al. | Real-time business activity monitoring and analysis of process performance on big-data domains | |
CN107070890A (zh) | 一种通信网优系统中的流数据处理装置及通信网优系统 | |
CN107451861B (zh) | 一种大数据下用户上网特征识别的方法 | |
CN107679192A (zh) | 多集群协同数据处理方法、系统、存储介质及设备 | |
MX2014002956A (es) | Mercado digial para la distribucion a tiempo de datos de evento. | |
CN110647512B (zh) | 一种数据存储和分析方法、装置、设备和可读介质 | |
CN107332719A (zh) | 一种cdn系统内日志实时分析的方法 | |
CN103345514A (zh) | 大数据环境下的流式数据处理方法 | |
CN104885078A (zh) | 用于大规模并行处理数据库集群中的两阶段查询优化的方法 | |
CN104090889A (zh) | 数据处理方法及系统 | |
CN110348821A (zh) | 一种结合物联网的智能制造管理系统及方法 | |
CN106570108A (zh) | 一种云存储环境下海量数据自适应读取优化方法及系统 | |
CN104951509A (zh) | 一种大数据在线交互式查询方法及系统 | |
CN111126852A (zh) | 一种基于大数据建模的bi应用系统 | |
CN115292414A (zh) | 一种业务数据同步到数仓的方法 | |
CN105550351B (zh) | 旅客行程数据即席查询系统及方法 | |
CN113792041B (zh) | 基于Hive和Spark的遥感数据服务离线批处理系统及方法 | |
CN115017159A (zh) | 数据处理方法及装置、存储介质及电子设备 | |
CN103235727A (zh) | 局部动态表单引擎装置、系统及方法 | |
CN100395752C (zh) | 一种报表数据采集系统和方法 | |
CN103778223A (zh) | 一种基于云平台的普适背单词系统及其构建方法 | |
CN106230618A (zh) | 一种系统日志集中处理系统 | |
CN108334603A (zh) | 一种大数据互动交换系统 | |
CN114546415A (zh) | 一种用于云平台大数据储存优化分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |