CN111026960B

CN111026960B - 一种用户兴趣分类方法

Info

Publication number: CN111026960B
Application number: CN201911211976.2A
Authority: CN
Inventors: 雷鸣
Original assignee: Shanghai Microphone Culture Media Co ltd
Current assignee: Shanghai Microphone Culture Media Co ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2023-09-01
Anticipated expiration: 2039-12-02
Also published as: CN111026960A

Abstract

本发明公开了数据分类技术领域的种用户兴趣分类方法，使用UCB方法来计算用户的兴趣偏好，是在近实时的情况下进行计算，借助大数据工具Spark Streaming系统+Kafka系统+Hbase系统来搭建整个计算流程，本发明通过UCB算法来构建置信区间曲线，通过实际的反馈不断重新计算UCB的值，以达到动态调整置信区间曲线，使其不断拟合趋近于真实的概率分布曲线，某个类别的UCB的值越大，代表用户更喜欢这个类别，使用UCB方法来计算用户的兴趣偏好，对用户对歌曲的兴趣偏好进行分类，方便根据用户的兴趣进行偏好歌曲的推送，以及服务器数据的更新。

Description

一种用户兴趣分类方法

技术领域

本发明涉及数据分类技术领域，具体为一种用户兴趣分类方法。

背景技术

互联网产品上线后，都会面临一个问题，当有新用户来的时候，不可避免会遇到冷启动的问题，新用户的曝光和播放次数相对较少，如何提高新用户的留存率，尽可能的让用户习惯使用自己的产品一直是研究的难点，解决问题的一个方向就是获取用户的兴趣类别，然后有的放矢的为用户进行个性化推荐，这样可以达到事半功倍的效果。

当前互联网产品特别是音频类产品针对新用户的提高留存的方法，一般是尽量推荐产品中现有的比较热门的专辑，一般认为热门的专辑对于新用户具有比较大的吸引力，通过积累一定的用户的点击，播放，购买等行为之后，根据模型计算预测用户的兴趣偏好类别，这种方法导致的结果是预测用户的兴趣类别是比较偏热门的类别，而偏冷门的类别却没有更多的曝光机会，导致预测用户的兴趣出现偏差，基于此，本发明设计了一种用户兴趣分类方法，以解决上述问题。

发明内容

本发明的目的在于提供一种用户兴趣分类方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种用户兴趣分类方法，使用UCB方法来计算用户的兴趣偏好，是在近实时的情况下进行计算，借助大数据工具SparkStreaming系统+Kafka系统+Hbase系统来搭建整个计算流程，整个计算流程步骤如下：

S1：服务器通过Kafka系统将原始数据收据，并通过Kafka系统传输到下游；

S2：通过Spark Streaming系统接收步骤S1中Kafka系统传输下来的数据，并将传输下来的数据解析聚合成计算机语言的数据格式，再通过Kafka系统传输到下游；

S3：下游通过Spark Streaming系统接收步骤S2中Kafka系统传输下来的解析合成数据，首先对传输下来的解析合成数据进行解析，实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布，并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布，代入UCB公式，得到当前批次用户的各个类别UCB的最新值；

S4：将步骤S3中计算后得出的当前批次的用户的最新的各个类别的曝光次数分布、播放次数分布、UCB分值进行分类，同步更新到Hbase系统中，方便服务器根据用户的兴趣进行分类推送。

优选的，所述Kafka系统是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。

优选的，所述Spark Streaming系统对于Spark核心API的拓展，从而支持对于实时数据流的可拓展，高吞吐量和容错性流处理，所述Spark Streaming系统接收到实时数据流同时将其划分为分批，这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流。

优选的，所述Spark是专为大规模数据处理而设计的快速通用的计算引擎，所述API是一些预先定义的函数，或指软件系统不同组成部分衔接的约定，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问原码，或理解内部工作机制的细节。

优选的，所述Hbase系统是一个分布式的、面向列的开源数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。

优选的，所述PCServer是电脑服务器，是指网络中能对其它机器提供某些服务的计算机系统。

优选的，所述UCB公式为

整个公式由两部分组成收益+探索两部分组成，前者是倾向于推荐当前平均播放收益大的类别的音频产品，后者是倾向于推荐曝光次数相对较少的类别的音频产品。

所述PC_j和PH_j为用户在类别j的当前批次的播放次数和历史播放次数，PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数，VC_j和VH_j为用户在类别j的当前批次的曝光次数和历史曝光次数，VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数，参数β控制收益部分和探索部分的比重；β越小，越倾向推荐曝光机会相对较少的音频产品，默认为0.4。

与现有技术相比，本发明的有益效果是：本发明通过UCB算法来构建置信区间曲线(收益+探索)，通过实际的反馈不断重新计算UCB的值，以达到动态调整置信区间曲线，使其不断拟合趋近于真实的概率分布曲线，某个类别的UCB的值越大，代表用户更喜欢这个类别，使用UCB方法来计算用户的兴趣偏好，对用户对歌曲的兴趣偏好进行分类，方便根据用户的兴趣进行偏好歌曲的推送，以及服务器数据的更新。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明计算流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种用户兴趣分类方法，使用UCB方法来计算用户的兴趣偏好，是在近实时的情况下进行计算，借助大数据工具Spark Streaming系统+Kafka系统+Hbase系统来搭建整个计算流程，整个计算流程步骤如下：

S1：服务器通过Kafka系统将原始数据收据，并通过Kafka系统传输到下游，Kafka系统是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据；

S2：通过Spark Streaming系统接收步骤S1中Kafka系统传输下来的数据，并将传输下来的数据解析聚合成计算机语言的数据格式，再通过Kafka系统传输到下游，SparkStreaming系统对于Spark核心API的拓展，从而支持对于实时数据流的可拓展，高吞吐量和容错性流处理，Spark Streaming系统接收到实时数据流同时将其划分为分批，这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流；

S3：下游通过Spark Streaming系统接收步骤S2中Kafka系统传输下来的解析合成数据，首先对传输下来的解析合成数据进行解析，实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布，并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布，代入UCB公式，得到当前批次用户的各个类别UCB的最新值，Hbase系统是一个分布式的、面向列的开源数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群，UCB公式为

整个公式由两部分组成收益+探索两部分组成，前者是倾向于推荐当前平均播放收益大的类别的音频产品，后者是倾向于推荐曝光次数相对较少的类别的音频产品；

其中，Spark是专为大规模数据处理而设计的快速通用的计算引擎，API是一些预先定义的函数，或指软件系统不同组成部分衔接的约定，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问原码，或理解内部工作机制的细节。

其中，PCServer是电脑服务器，是指网络中能对其它机器提供某些服务的计算机系统。

其中，所述PC_j和PH_j为用户在类别j的当前批次的播放次数和历史播放次数，PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数，VC_j和VH_j为用户在类别j的当前批次的曝光次数和历史曝光次数，VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数，参数β控制收益部分和探索部分的比重；β越小，越倾向推荐曝光机会相对较少的音频产品，默认为0.4。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种用户兴趣分类方法，其特征在于：使用UCB方法来计算用户的兴趣偏好，是在近实时的情况下进行计算，借助大数据工具SparkStreaming系统+Kafka系统+Hbase系统来搭建整个计算流程，整个计算流程步骤如下：

S2：通过SparkStreaming系统接收步骤S1中Kafka系统传输下来的数据，并将传输下来的数据解析聚合成计算机语言的数据格式，再通过Kafka系统传输到下游；

S3：下游通过SparkStreaming系统接收步骤S2中Kafka系统传输下来的解析合成数据，首先对传输下来的解析合成数据进行解析，实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布，并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布，代入UCB公式，得到当前批次用户的各个类别UCB的最新值；所述UCB公式为

所述PC_j和PH_j为用户在类别j的当前批次的播放次数和历史播放次数，PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数，VC_j和VH_j为用户在类别j的当前批次的曝光次数和历史曝光次数，VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数，参数β控制收益部分和探索部分的比重；

2.根据权利要求1所述的一种用户兴趣分类方法，其特征在于：所述Kafka系统是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。

3.根据权利要求1所述的一种用户兴趣分类方法，其特征在于：所述Spark Streaming系统对于Spark核心API的拓展，从而支持对于实时数据流的可拓展，高吞吐量和容错性流处理，所述SparkStreaming系统接收到实时数据流同时将其划分为分批，这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流。

4.根据权利要求3所述的一种用户兴趣分类方法，其特征在于：所述Spark是专为大规模数据处理而设计的快速通用的计算引擎，所述API是一些预先定义的函数，或指软件系统不同组成部分衔接的约定。

5.根据权利要求1所述的一种用户兴趣分类方法，其特征在于：所述Hbase系统是一个分布式的、面向列的开源数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。

6.根据权利要求5所述的一种用户兴趣分类方法，其特征在于：所述PCServer是电脑服务器，是指网络中能对其它机器提供某些服务的计算机系统。