CN105808537A

CN105808537A - 一种基于Storm的实时推荐方法及系统

Info

Publication number: CN105808537A
Application number: CN201410832100.0A
Authority: CN
Inventors: 郑巧玲
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2014-12-29
Filing date: 2014-12-29
Publication date: 2016-07-27

Abstract

本发明公开了一种基于Storm的实时推荐方法及系统，其实时推荐方法包括：A、分别对视频数据和用户的行为数据进行离线的相似度计算，获得视频的相似度模型，以及对所述行为数据进行统计分析获得用户行为的统计数据；B、在Storm端中根据视频数据进行用户建模生成兴趣向量，结合所述兴趣向量和相似度模型获得基于用户行为的个性化推荐结果；C、综合所述统计数据、相似度模型和个性化推荐结果获得推荐列表。本发明将相似度和兴趣结合，提高了用户喜好度个性化分析的准确度，确保了推荐的质量。

Description

一种基于Storm的实时推荐方法及系统

技术领域

本发明涉及推荐技术领域，特别涉及一种基于Storm的实时推荐方法及系统。

背景技术

随着信息技术和互联网的发展，人们逐渐从信息匮乏的时代走入了信息过载(Informationoverload)的时代。在这个时代，无论是信息消费者还是作为信息生产者都遇到了很大的挑战。作为信息消费者，如何从大量的信息中找到自己感兴趣的信息是非常困难的。而作为信息生产者，如何让自己生产的信息脱颖而出，能被广大用户知悉，也是非常困难的。现有的推荐系统能解决上述问题，其通过分析用户的历史行为（如观看、下载、收藏等）给用户的兴趣建模，从而主动推荐能够满足用户兴趣需求的信息。推荐系统的任务就是联系用户与信息，一方面能帮助用户发现对自己有价值的信息，另一方面能让信息展现在对它感兴趣的用户面前，从而实现信息消费者和信息生产者的双赢。

在互联网的高速发展下，随着信息的爆发式膨胀，人们获取信息的途径也更加多样、更加便捷，同时对于信息的时效性要求也越来越高。例如，当一个卖家发布了一条商品的售卖信息时，卖家希望该商品能马上被买家搜索出来、并点击购买。如果这件商品要等到第二天或者更久才会被搜出来，那么用户会觉得这个系统无法满足需要。对应推荐系统来说，特别是针对商品的推荐，对推荐的实时性要求很高。当用户购买或者浏览了某件商品，系统应该根据用户当前发生的行为来做推荐才能获得更加的推荐效果。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供一种基于Storm的实时推荐方法及系统，以解决现有推荐系统对于大数据计算实时性较差的问题。

为了达到上述目的，本发明采取了以下技术方案：

一种基于Storm的实时推荐方法，其包括：

A、分别对视频数据和用户的行为数据进行离线的相似度计算，获得视频的相似度模型，以及对所述行为数据进行统计分析获得用户行为的统计数据；

B、在Storm端中根据视频数据进行用户建模生成兴趣向量，结合所述兴趣向量和相似度模型获得基于用户行为的个性化推荐结果；

C、综合所述统计数据、相似度模型和个性化推荐结果获得推荐列表。

所述的基于Storm的实时推荐方法中，所述步骤A具体包括：

A1、每隔预设时间获取一次用户的行为数据和视频数据、并分别进行预处理；

A2、对视频数据进行基于内容的相似度计算，对行为数据进行基于协同过滤的相似度计算；对所述基于内容的相似度计算结果与所述基于协同过滤的相似度计算结果进行相似度融合获得视频的相似度模型；

A3、对预处理后的行为数据进行统计分析，获得用户行为的统计数据。

所述的基于Storm的实时推荐方法中，在所述步骤A1中，所述预处理具体包括：

A11、滤除无效数据；

A12、分别将每条行为数据和视频数据转换成对应计算算法所需的数据格式。

所述的基于Storm的实时推荐方法中，所述步骤A12具体包括：

将每条行为数据转换成基于协同过滤的相似度计算算法所需的数据格式，每条行为数据包括用户在某一时间对某个视频的喜好值；

将每条视频数据可以转换成基于内容的相似度计算算法所需的数据格式，每条视频数据包括该视频的信息。

所述的基于Storm的实时推荐方法中，所述对视频数据进行基于内容的相似度计算具体包括：

A21、提取视频特征；

A22、计算视频特征的权重；

A23、根据视频包含的特征及对应的特征的权重计算出视频之间的第一相似度矩阵。

所述的基于Storm的实时推荐方法中，所述步骤A2中，将预处理后的行为数据输入到协同过滤算法中，计算出视频之间的第二相似度矩阵，相似度计算公式为：

，

其中，表示用户同时喜欢视频i和视频j，为喜欢视频i的用户数，为喜欢视频j的用户数，为用户u对视频i产生行为的时间，为用户u对视频j产生行为的时间；为与时间相关的衰减项，公式为：

，其中，为时间衰减参数。

所述的基于Storm的实时推荐方法中，所述步骤B中，在Storm端中根据视频数据进行用户建模生成兴趣向量，兴趣向量p(u,i)的计算公式为：

，其中，为用户u喜欢的视频集，为当前时间，是时间衰减参数，为用户u对视频j产生行为的时间。

所述的基于Storm的实时推荐方法中，还包括步骤D、根据用户行为信息过滤掉推荐列表中无效的视频，对过滤后的推荐列表进行排序。

一种用于实现所述的基于Storm的实时推荐方法的系统，其包括：

离线端，用于分别对视频数据和用户的行为数据进行离线的相似度计算，获得视频的相似度模型，以及对所述行为数据进行统计分析获得用户行为的统计数据；

Storm端，用于根据视频数据进行用户建模生成兴趣向量，结合所述兴趣向量和相似度模型获得基于用户行为的个性化推荐结果；

在线端，用于综合所述统计数据、相似度模型和个性化推荐结果获得推荐列表。

所述的系统中，所述在线端还用于根据用户行为信息过滤掉推荐列表中无效的视频，对过滤后的推荐列表进行排序。

相较于现有技术，本发明提供的基于Storm的实时推荐方法及系统，分别对视频数据和用户的行为数据进行离线的相似度计算，获得视频的相似度模型，以及对所述行为数据进行统计分析获得用户行为的统计数据；在Storm端中根据视频数据进行用户建模生成兴趣向量，结合所述兴趣向量和相似度模型获得基于用户行为的个性化推荐结果，综合所述统计数据、相似度模型和个性化推荐结果获得推荐列表；这种相似度和兴趣结合推荐方式提高了用户的喜好度和个性化分析的准确度，提高了推荐的质量。

附图说明

图1为本发明基于Storm的实时推荐方法较佳实施例的流程图。

图2为本发明基于Storm的实时推荐方法中Spout节点和Bolt节点计算示意图。

图3为本发明实现基于Storm的实时推荐方法的系统较佳实施例的结构框图。

具体实施方式

本发明提供一种基于Storm的实时推荐方法及系统，在基于流式计算框架Storm的基础上，通过分析用户使用推荐系统的时间，准确了解用户的上下文信息（如时间、地点），并根据上下文信息建模用户兴趣，来分析用户的兴趣喜好，如用户上班时和下班后的兴趣会有区别，用户在平时和周末的兴趣不同；给用户做推荐时。引入流式计算框架Storm实时收集用户行为日志并分析用户兴趣，根据上下文信息计算生成推荐列表；以实现高效、实时性的日志数据处理。为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参阅图1，其为本发明基于Storm的实时推荐方法较佳实施例的流程图。如图1所示，本实施例提供的基于Storm的实时推荐方法包括以下步骤：

S100、分别对视频数据和用户的行为数据进行离线的相似度计算，获得视频的相似度模型，以及对所述行为数据进行统计分析获得用户行为的统计数据。

S200、在Storm端中根据视频数据进行用户建模生成兴趣向量，结合所述兴趣向量和相似度模型获得基于用户行为的个性化推荐结果。

S300、综合所述统计数据、相似度模型和个性化推荐结果获得推荐列表。

本实施例提供实时推荐方法可实现各种推荐，如视频推荐、音乐推荐、商品推荐等，此处对此不作限定。该实时推荐方法从功能上分为个性化推荐和非个性化推荐，从执行上可以分为离线、在线两部分。步骤S100属于离线处理，步骤S200、S300属于在线处理。本实施例以视频推荐为例来具体阐述所述实时推荐方法。

用户通过API（ApplicationProgramInterface）向本实施例的实时推荐系统请求推荐，所述实时推荐系统结合上下文信息响应用户的推荐请求，执行步骤S100~S300获得基于用户历史行为的个性化推荐、基于统计和其它因素生成的非个性化推荐、基于相似度的相关推荐；结合这三个推荐生成最终的推荐列表。所述上下文信息为时间信息或地点信息，如请求推荐的系统时间。进行离线的相似度计算时结合上下文信息，能获得更加有效的计算结果。

本实施例引入流式计算框架Storm，通过对其消息日志系统获取的用户的行为数据，所述行为数据即用户对各种视频进行的相关操作历史行为，如观看时间、节目内容、下载或收藏的节目等。进行分批处理的方式，即每隔预设时间（如一天）获取一次行为数据、并结合视频数据（与视频有关的数据，如节目内容、导演、演员、片长等）进行离线的相似度计算，生成视频的相似度模型。同时还对行为数据进行统计分析获得用户访问各视频的统计数据（与用户的观看行为有关，如视频的观看时间、被用户观看次数、收藏次数、下载等）、为在线推荐提供统计信息。

所述步骤S100具体包括：

步骤101、每隔预设时间获取一次用户的行为数据和视频数据、并分别进行预处理。

所述行为数据来源于流式计算框架Storm的消息日志系统，包括用户对各种视频进行的相关操作，如观看的节目，观看的时间、节目的内容、对节目进行下载或收藏等操作。所述视频数据从后台获取，包括所有视频数据。由于计算相似度时计算量很大，不可能在用户一有新的行为后就实时进行计算，而且用户一次的新的行为或者有新的视频加入系统后对视频相似度影响不大。因此在离线计算视频的相似度和统计视频播放次数等统计信息时。需每隔预设时间（如一天，可按照系统的实际情况调整）获取一次行为数据和视频数据。由于离线部分的计算和更新不频繁，计算获得的模型结果以读取为主，因此存储计算分析结果的数据库采用Couchbase、MongoDB等为读取优化的数据库为较佳。

为了确保计算分析结果的准确性，需要对行为数据和视频数据分别进行预处理。所述预处理包括：

1、滤除无效数据。如对数据进行清洗去掉“脏”数据（错误、乱码）、噪音数据等。

2、分别将每条行为数据和视频数据转换成对应计算算法所需的数据格式，以便计算分析。将每条行为数据可以转换成基于协同过滤的相似度计算算法所需的数据格式，如：用户，视频，时间，喜好度。每条行为数据包括用户在某一时间对某个视频的喜好值（以数值表示），把用户对视频的观看、评分、收藏等行为转为用户对视频的喜好度（喜好值）。将每条视频数据可以转换成基于内容的相似度计算算法所需的数据格式，如：名称、导演、演员、简介、片长。每条视频数据包括该视频的相关信息（还可以增加视频来源或播放地址等内容）。预处理后即可开始计算

步骤102、对视频数据进行基于内容的相似度计算，对行为数据进行基于协同过滤的相似度计算；对所述基于内容的相似度计算结果与所述基于协同过滤的相似度计算结果进行相似度融合获得视频的相似度模型。

对视频数据进行基于内容的相似度计算时，先要提取视频特征，接着计算视频特征的权重，最后根据视频包含的特征及对应的特征的权重计算出视频之间的第一相似度矩阵，存储至第一相似度表中。

例如，《星际穿越》可以提取视频特征的向量为{克里斯托弗·诺兰，乔纳森·诺兰，马修·麦康纳，安妮·海瑟薇，杰西卡·查斯坦，迈克尔·凯恩，麦肯吉·弗依，科幻，悬疑，冒险}。根据TF-IDF（termfrequency–inversedocumentfrequency）算法计算出视频中每个特征向量的权重。每部视频可以用特征及特征的权重组成的向量表示：{{v₁，w₁}，{v₂，w₂}…{v_n，w_n}}。v_i为特征，w_i为特征v_i对应的权重。如v₁为克里斯托弗·诺兰，w₁为克里斯托弗·诺兰的权重。根据相似度计算公式，可以计算出视频与视频之间的相似度值s_i,j（s_i,j的值范围为0-1的小数）。视频-视频的相似度矩阵（视频个数为m）可以如下表示：

。

矩阵的每一行、每一列都是视频1-m。

本实施例在相似度计算时结合了上下文信息。所述上下文信息为时间信息，即从时间方面可以分析出用户在一天内不同时间段的喜好，平时和周末的不同喜好，不同季度的喜好变化等。因此，在对行为数据进行基于协同过滤计算相似度时需结合时间信息。此处的行为数据是所有用户的行为数据。将预处理后的行为数据输入到协同过滤算法中，计算出视频之间的第二相似度矩阵。用户在相隔很短的时间内喜欢的视频具有较高的相似度。基于协同过滤的相似度计算的相似度公式如下：

，

结合时间信息，本实施例将所述相似度公式改进为：

，

其中，表示用户同时喜欢视频i和视频j，为喜欢视频i的用户数，为喜欢视频j的用户数，为用户u对视频i产生行为的时间，为用户u对视频j产生行为的时间。用户对视频i和视频j产生行为的时间越远，则越小。为与时间相关的衰减项，其公式如下：

，

其中，为时间衰减参数。

通过上述公式即可算出视频之间的第二相似度矩阵，存储至第二相似度表中。矩阵的每一行表示一个视频与其他视频的相似度向量。数值越接近1，相似度越高；数值越接近0，相似度越低。

将第一相似度矩阵和第二相似度矩阵进行线性组合相加，即可获得最终的视频之间相似度矩阵，即视频的相似度模型。

步骤103、对预处理后的行为数据进行统计分析，获得用户行为的统计数据。

本步骤主要统计视频播放次数、收藏、下载等对视频各类行为信息，如统计视频被用户观看次数、评分次数、收藏次数等，并把统计得到的结果存到数据库中，为后续非个性化推荐提供参照。离线部分按照预设时间周期进行相似度计算和数据统计，并同时更新数据库中的相关数据（即统计数据和相似度模式）

上述步骤获得的相似度模型和统计数据作为步骤S200中进行个性化推荐的数据基础。所述步骤S200属于在线推荐，通过对用户行为等各种与推荐相关的事件进行实时处理，并实时地生成结果。在线推荐主要负责实时地接收用户行为，本实施例利用Storm端的分布式实时处理的功能，通过消息日志系统实时地获取最新的用户行为，并结合数据库中离线的相似度模型生成或更新用户的兴趣及个性化推荐列表。步骤S200中用户建模是针对具体的某位用户。

Storm的运算框架里将计算节点分为Spout节点和Bolt节点两类，如图2所示。其中Spout节点负责为计算流程提供输入，即从消息日志系统中读取消息，包括新的用户行为和其它需要更新模型的事件（如离线模型完成更新）。而Bolt节点则接收从Spout节点或者其它Bolt节点输入的数据并加以计算处理，根据需要可以再输出数据供其它Bolt节点使用。最后一个Bolt节点生成的推荐列表会呈现给用户，即实时响应用户的推荐请求。

基于用户近期的行为相比用户很久之前的行为，更能体现用户现在的兴趣。在Bolt节点计算兴趣向量时，对用户u做推荐，用户u对视频i的兴趣向量p(u,i)的计算公式如下：

，

本实施例结合时间信息后，获得改进后的兴趣向量p(u,i)的计算公式如下：

，

其中，为用户u喜欢的视频集，为当前时间，为用户u对视频j产生行为的时间。越靠近，和视频i相似的视频就会在用户u的推荐列表中获得越高的排名，是时间衰减参数。

最后，将兴趣向量和相似度模型结合即可获得基于用户行为的个性化推荐结果。

在具体实施时，还可以将步骤S100中的统计数据与兴趣向量、相似度模型一起结合获得更加准确的个性化推荐结果。

本实施例中，所述统计数据用于提供非个性化推荐，即所推荐的视频为最新上映的视频、或根据用户好评排行的视频，这些视频的推荐与用户的个人兴趣喜好无关。所述相似度模型是对所有用户的行为数据进行计算获得的，因此，其用于提供相关推荐，所推荐的视频为与用户最近观看或根据计算结果预测用户感兴趣的视频类型相似的视频，这些视频的推荐与所有用户的行为数据具有相似性。所述个性化推荐结果推荐的视频具体针对某个用户的兴趣喜好，因此具有个性化。

在步骤S300中，综合这三种推荐即可获得一个推荐列表。在进行视频推荐之前，用户通过API向本实施例的实时推荐系统请求推荐，即API层负责接收从客户端传来的推荐请求。实时推荐系统根据推荐请求调用相应的后台服务，执行上述步骤S100~S300获取推荐列表后返回给客户端即可。

为了提供推荐效果更加的推荐列表，进一步实施例中，还可对推荐列表做进一步处理，包括先根据用户行为等信息过滤掉推荐列表中无效（不合适）的视频（主要是用户已经看过的、已下线的视频等），并且去掉推荐列表中重复推荐的视频。

为了更好地提升用户满意度，还可以对过滤后的推荐列表进行排序。根据排序策略对推荐列表进行重组。排序策略包括：时间多样性、多样性、新颖性等。新颖性排序的目的是给用户尽量推荐不知道的、排在后面的视频。多样性是让推荐结果覆盖尽可能多的用户兴趣。时间多样性为了保证用户不要每天请求推荐服务都看到同样的推荐结果。经过排序后才获得最终的综合推荐列表，反馈给用户显示。

本发明实施例还相应提供一种用于实现所述的基于Storm的实时推荐方法的系统，如图3所示，其包括离线端10、Storm端20和在线端30，离线端10连接Storm端20和在线端30，Storm端20连接在线端30。离线端10分别对视频数据和用户的行为数据进行离线的相似度计算，获得视频的相似度模型，以及对所述行为数据进行统计分析获得用户行为的统计数据。Storm端20根据视频数据进行用户建模生成兴趣向量，结合所述兴趣向量和相似度模型获得基于用户行为的个性化推荐结果。在线端30综合所述统计数据、相似度模型和个性化推荐结果获得推荐列表。

其中，所述离线端10包括：

预处理模块110，用于每隔预设时间获取一次用户的行为数据和视频数据、并分别进行预处理；

计算模块120，用于对视频数据进行基于内容的相似度计算，对行为数据进行基于协同过滤的相似度计算；对所述基于内容的相似度计算结果与所述基于协同过滤的相似度计算结果进行相似度融合获得视频的相似度模型；

统计模块130，用于对预处理后的行为数据进行统计分析，获得用户行为的统计数据；

所述预处理模块110连接计算模块120和统计模块130。

所述Storm端20包括：

消息日志系统210，用于存储用户的行为数据和消息；

建模模块220，用于根据视频数据进行用户建模生成兴趣向量；

个性化推荐模块230，用于结合兴趣向量和相似度模型获得基于用户行为的个性化推荐结果；

所述消息日志系统210连接建模模块220和预处理模块110，所述建模模块220连接个性化推荐模块230。

所述在线端30包括：

综合模块310，用于综合所述统计数据、相似度模型和个性化推荐结果获得推荐列表；

在具体实施时，为了提供推荐效果更加的推荐列表，还包括

过滤模块320，用于根据用户行为信息过滤掉推荐列表中无效的视频；

排序模块330，用于对过滤后的推荐列表进行排序建模

本实施例中的一种用于实现所述的基于Storm的实时推荐方法的系统与上述方法实施例的具体实现过程及技术效果是一致的，此处不再赘述。

综上所述，本发明的基于Storm的实时推荐方法及系统，引入流式计算框架Storm实时收集用户行为日志并分析用户兴趣，分别对视频数据和用户的行为数据结合上下文信息进行离线的相似度计算，获得视频的相似度模型，计算时结合上下文信息；通过用户建模来分析用户的兴趣喜好，这种相似度和兴趣结合推荐方式提高了用户的喜好度和个性化分析的准确度，提高了推荐节目的质量。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于Storm的实时推荐方法，其特征在于，包括：

2.根据权利要求1所述的基于Storm的实时推荐方法，其特征在于，所述步骤A具体包括：

3.根据权利要求2所述的基于Storm的实时推荐方法，其特征在于，在所述步骤A1中，所述预处理具体包括：

A11、滤除无效数据；

4.根据权利要求3所述的基于Storm的实时推荐方法，其特征在于，所述步骤A12具体包括：

5.根据权利要求4所述的基于Storm的实时推荐方法，其特征在于，所述对视频数据进行基于内容的相似度计算具体包括：

A21、提取视频特征；

A22、计算视频特征的权重；

6.根据权利要求4所述的基于Storm的实时推荐方法，其特征在于，所述步骤A2中，将预处理后的行为数据输入到协同过滤算法中，计算出视频之间的第二相似度矩阵，相似度计算公式为：

，

，其中，为时间衰减参数。

7.根据权利要求1所述的基于Storm的实时推荐方法，其特征在于，所述步骤B中，在Storm端中根据视频数据进行用户建模生成兴趣向量，兴趣向量p(u,i)的计算公式为：

8.根据权利要求1所述的基于Storm的实时推荐方法，其特征在于，还包括步骤D、根据用户行为信息过滤掉推荐列表中无效的视频，对过滤后的推荐列表进行排序。

9.一种用于实现权利要求1所述的基于Storm的实时推荐方法的系统，其特征在于，包括：

10.根据权利要求9所述的系统，其特征在于，所述在线端还用于根据用户行为信息过滤掉推荐列表中无效的视频，对过滤后的推荐列表进行排序。