CN111026905A - 一种高效的用户兴趣类别预测方法 - Google Patents
一种高效的用户兴趣类别预测方法 Download PDFInfo
- Publication number
- CN111026905A CN111026905A CN201911212361.1A CN201911212361A CN111026905A CN 111026905 A CN111026905 A CN 111026905A CN 201911212361 A CN201911212361 A CN 201911212361A CN 111026905 A CN111026905 A CN 111026905A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- kafka
- tool
- downstream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000007405 data analysis Methods 0.000 claims abstract description 5
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 238000013523 data management Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 7
- 238000007726 management method Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000010835 comparative analysis Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000000052 comparative effect Effects 0.000 abstract 1
- 230000005484 gravity Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
- G06F16/637—Administration of user profiles, e.g. generation, initialization, adaptation or distribution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了互联网数据分析技术领域的一种高效的用户兴趣类别预测方法,S1:用户数据收集,S2:收集数据整理,S3:整理数据对比,S4:对比数据统计,S5:统计数据推送;本发明通过对用户的数据进行收集以及分析后,根据用户的喜好,进行与其喜好类似的歌曲进行推送,方便用户找到自己喜欢的歌曲,方便用户的使用,以及方便公司了解用户的喜好,而及时的进行原始数据的更新。
Description
技术领域
本发明涉及互联网数据分析技术领域,具体为一种高效的用户兴趣类别预测方法。
背景技术
互联网产品上线后,都会面临一个问题,当有新用户来的时候,不可避免会遇到冷启动的问题,新用户的曝光和播放次数相对较少,如何提高新用户的留存率,尽可能的让用户习惯使用自己的产品一直是研究的难点,解决问题的一个方向就是获取用户的兴趣类别,然后有的放矢的为用户进行个性化推荐,这样可以达到事半功倍的效果。
当前互联网产品特别是音频类产品针对新用户的提高留存的方法,一般是尽量推荐产品中现有的比较热门的专辑,一般认为热门的专辑对于新用户具有比较大的吸引力,通过积累一定的用户的点击,播放,购买等行为之后,根据模型计算预测用户的兴趣偏好类别,这种方法导致的结果是预测用户的兴趣类别是比较偏热门的类别,而偏冷门的类别却没有更多的曝光机会,导致预测用户的兴趣出现偏差。
基于此,本发明设计了一种高效的用户兴趣类别预测方法,以解决上述问题。
发明内容
本发明的目的在于提供一种高效的用户兴趣类别预测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种高效的用户兴趣类别预测方法,
S1:用户数据收集
服务器通过对用户点击查看、播放、下载以及收藏的歌曲数据,收集的数据通过kafka系统传输到下游;
S2:收集数据整理
对步骤S1中通过kafka系统输送的原始数据通过Hdfs系统按照时间的顺序对用户点击查看、播放、下载以及收藏的歌曲数据进行排序,整理好的数据通过kafka系统传输到下游;
S3:整理数据对比
对步骤S2中通过kafka系统输送的整理数据通过Hive系统与服务器中原始数据进行对比,将用户点击查看、播放、下载以及收藏的歌曲数据进行对比分析,且分析的结果数据通过kafka系统传输到下游;
S4:对比数据统计
对步骤S3中通过kafka系统输送的对比数据通过公式
进行用户点击查看、播放、下载以及收藏次数的统计,统计的数据通过
kafka系统传输到下游;
S5:统计数据推送
根据对步骤S4中通过kafka系统输送的统计数据,通过Hdfs系统按照数值从大至小的方式进行排序,并通过Hive系统按照Hdfs系统大至小的方式进行排序将服务器中原始数据与统计数据类似的歌曲数据向用户进行推送。
优选的,所述kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
优选的,所述Hdfs系统放宽了POSIX的要求这样可以实现流的形式访问文件系统中的数据,所述POSIX为可移植操作系统接口。
优选的,所述Hive系统包括数据源、数据存储和管理、数据服务和数据应用。
优选的,所述数据源为数据仓库的数据来源,含外部数据、现有业务系统和文档资料。
优选的,所述数据存储和管理为对数据的存储和管理,含数据仓库、数据集市、数据仓库检测、运行与维护工具和元数据管理。
优选的,所述数据服务为前端和应用提供数据服务,可直接从数据仓库中获取数据供前端应用使用,也可通过OLAP服务器为前端应用提供负责的数据服务,所述OLAP服务器为联机分析处理,能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
优选的,所述数据应用为直接面向用户,含数据查询工具、自由报表工具、数据分析工具、数据挖掘工具和各类应用系统。
优选的,PCj和PHj为用户在类别j的当前批次的播放次数和历史播放次数,PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数。
优选的,VCj和VHj为用户在类别j的当前批次的曝光次数和历史曝光次数,VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数。
优选的,参数β控制收益部分和探索部分的比重,β越小,越倾向推荐曝光机会相对较少的音频产品,默认为0.4。
与现有技术相比,本发明的有益效果是:本发明通过对用户的数据进行收集以及分析后,根据用户的喜好,进行与其喜好类似的歌曲进行推送,方便用户找到自己喜欢的歌曲,方便用户的使用,以及方便公司了解用户的喜好,而及时的进行原始数据的更新。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:
一种高效的用户兴趣类别预测方法,
S1:用户数据收集
服务器通过对用户点击查看、播放、下载以及收藏的歌曲数据,收集的数据通过kafka系统传输到下游,kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据;
S2:收集数据整理
对步骤S1中通过kafka系统输送的原始数据通过Hdfs系统按照时间的顺序对用户点击查看、播放、下载以及收藏的歌曲数据进行排序,整理好的数据通过kafka系统传输到下游,Hdfs系统放宽了POSIX的要求这样可以实现流的形式访问文件系统中的数据,POSIX为可移植操作系统接口;
S3:整理数据对比
对步骤S2中通过kafka系统输送的整理数据通过Hive系统与服务器中原始数据进行对比,将用户点击查看、播放、下载以及收藏的歌曲数据进行对比分析,且分析的结果数据通过kafka系统传输到下游,Hive系统包括数据源、数据存储和管理、数据服务和数据应用;
S4:对比数据统计
对步骤S3中通过kafka系统输送的对比数据通过公式
进行用户点击查看、播放、下载以及收藏次数的统计,统计的数据通过
kafka系统传输到下游;
S5:统计数据推送
根据对步骤S4中通过kafka系统输送的统计数据,通过Hdfs系统按照数值从大至小的方式进行排序,并通过Hive系统按照Hdfs系统大至小的方式进行排序将服务器中原始数据与统计数据类似的歌曲数据向用户进行推送。
其中,数据源为数据仓库的数据来源,含外部数据、现有业务系统和文档资料,数据存储和管理为对数据的存储和管理,含数据仓库、数据集市、数据仓库检测、运行与维护工具和元数据管理,数据服务为前端和应用提供数据服务,可直接从数据仓库中获取数据供前端应用使用,也可通过OLAP服务器为前端应用提供负责的数据服务,OLAP服务器为联机分析处理,能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,数据应用为直接面向用户,含数据查询工具、自由报表工具、数据分析工具、数据挖掘工具和各类应用系统。
其中,PCj和PHj为用户在类别j的当前批次的播放次数和历史播放次数,PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数;
其中,VCj和VHj为用户在类别j的当前批次的曝光次数和历史曝光次数,VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数;
其中,参数β控制收益部分和探索部分的比重,β越小,越倾向推荐曝光机会相对较少的音频产品,默认为0.4。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (8)
1.一种高效的用户兴趣类别预测方法,其特征在于:
S1:用户数据收集
服务器通过对用户点击查看、播放、下载以及收藏的歌曲数据,收集的数据通过kafka系统传输到下游;
S2:收集数据整理
对步骤S1中通过kafka系统输送的原始数据通过Hdfs系统按照时间的顺序对用户点击查看、播放、下载以及收藏的歌曲数据进行排序,整理好的数据通过kafka系统传输到下游;
S3:整理数据对比
对步骤S2中通过kafka系统输送的整理数据通过Hive系统与服务器中原始数据进行对比,将用户点击查看、播放、下载以及收藏的歌曲数据进行对比分析,且分析的结果数据通过kafka系统传输到下游;
S4:对比数据统计
对步骤S3中通过kafka系统输送的对比数据通过公式
进行用户点击查看、播放、下载以及收藏次数的统计,统计的数据通过kafka系统传输到下游;
S5:统计数据推送
根据对步骤S4中通过kafka系统输送的统计数据,通过Hdfs系统按照数值从大至小的方式进行排序,并通过Hive系统按照Hdfs系统大至小的方式进行排序将服务器中原始数据与统计数据类似的歌曲数据向用户进行推送。
2.根据权利要求1所述的一种高效的用户兴趣类别预测方法,其特征在于:所述kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
3.根据权利要求1所述的一种高效的用户兴趣类别预测方法,其特征在于:所述Hdfs系统放宽了POSIX的要求这样可以实现流的形式访问文件系统中的数据,所述POSIX为可移植操作系统接口。
4.根据权利要求1所述的一种高效的用户兴趣类别预测方法,其特征在于:所述Hive系统包括数据源、数据存储和管理、数据服务和数据应用。
5.根据权利要求4所述的一种高效的用户兴趣类别预测方法,其特征在于:所述数据源为数据仓库的数据来源,含外部数据、现有业务系统和文档资料。
6.根据权利要求4所述的一种高效的用户兴趣类别预测方法,其特征在于:所述数据存储和管理为对数据的存储和管理,含数据仓库、数据集市、数据仓库检测、运行与维护工具和元数据管理。
7.根据权利要求4所述的一种高效的用户兴趣类别预测方法,其特征在于:所述数据服务为前端和应用提供数据服务,可直接从数据仓库中获取数据供前端应用使用,也可通过OLAP服务器为前端应用提供负责的数据服务,所述OLAP服务器为联机分析处理,能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
8.根据权利要求4所述的一种高效的用户兴趣类别预测方法,其特征在于:所述数据应用为直接面向用户,含数据查询工具、自由报表工具、数据分析工具、数据挖掘工具和各类应用系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911212361.1A CN111026905B (zh) | 2019-12-02 | 2019-12-02 | 一种高效的用户兴趣类别预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911212361.1A CN111026905B (zh) | 2019-12-02 | 2019-12-02 | 一种高效的用户兴趣类别预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111026905A true CN111026905A (zh) | 2020-04-17 |
CN111026905B CN111026905B (zh) | 2024-04-12 |
Family
ID=70207650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911212361.1A Active CN111026905B (zh) | 2019-12-02 | 2019-12-02 | 一种高效的用户兴趣类别预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026905B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008104034A1 (en) * | 2007-03-01 | 2008-09-04 | Webwise Pty Ltd | Interactive radio management system |
US20180165604A1 (en) * | 2016-12-09 | 2018-06-14 | U2 Science Labs A Montana | Systems and methods for automating data science machine learning analytical workflows |
CN109002512A (zh) * | 2018-07-03 | 2018-12-14 | 嘉兴玖轩电子商务有限公司 | 一种电子商务系统 |
-
2019
- 2019-12-02 CN CN201911212361.1A patent/CN111026905B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008104034A1 (en) * | 2007-03-01 | 2008-09-04 | Webwise Pty Ltd | Interactive radio management system |
US20180165604A1 (en) * | 2016-12-09 | 2018-06-14 | U2 Science Labs A Montana | Systems and methods for automating data science machine learning analytical workflows |
CN109002512A (zh) * | 2018-07-03 | 2018-12-14 | 嘉兴玖轩电子商务有限公司 | 一种电子商务系统 |
Non-Patent Citations (1)
Title |
---|
申彦;宋新平;聂鹏;: "一种基于协同过滤的APPS跨类别推荐算法" * |
Also Published As
Publication number | Publication date |
---|---|
CN111026905B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jawaheer et al. | Comparison of implicit and explicit feedback from an online music recommendation service | |
JP6449351B2 (ja) | ブロードキャストメッセージに対するオンラインユーザの反応を特定するためのデータマイニング | |
Shamma et al. | Viral actions: Predicting video view counts using synchronous sharing behaviors | |
Abel et al. | Twitcident: fighting fire with information from social web streams | |
JP5368319B2 (ja) | 放送データを監視および認識するためのシステムおよび方法 | |
US7421429B2 (en) | Generate blog context ranking using track-back weight, context weight and, cumulative comment weight | |
TWI510937B (zh) | 媒體資產之發佈排序的方法及系統 | |
JP6170023B2 (ja) | コンテンツ推薦装置、コンテンツ推薦方法及びコンテンツ推薦プログラム | |
CN111861550B (zh) | 一种基于ott设备的家庭画像构建方法及系统 | |
US20120246097A1 (en) | Apparatus and Methods for Analyzing and Using Short Messages from Commercial Accounts | |
CN105744370A (zh) | 基于群体收视行为的广播电视系统及其个性节目推荐方法 | |
US11803557B2 (en) | Social intelligence architecture using social media message queues | |
CN111191111B (zh) | 内容推荐方法、装置及存储介质 | |
CN110191171B (zh) | 气象信息传播方法 | |
Miao et al. | Cost-effective online trending topic detection and popularity prediction in microblogging | |
CN109145109B (zh) | 基于社交网络的用户群体消息传播异常分析方法及装置 | |
Cui et al. | Topical event detection on twitter | |
CN102695086A (zh) | 交互式网络协议电视的内容推送方法和装置 | |
CN111026905A (zh) | 一种高效的用户兴趣类别预测方法 | |
JP2006011896A (ja) | 推薦システム、番組推薦システム、およびサービス | |
Wang et al. | Adaptive identification of hashtags for real-time event data collection | |
CN110019759A (zh) | 用户分群处理方法、装置、计算机设备和存储介质 | |
Bogina et al. | Incorporating time-interval sequences in linear TV for next-item prediction | |
Bailer et al. | Learning selection of user generated event videos | |
CN118828122A (zh) | 推荐方法、装置及网络设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |