CN111026960B - 一种用户兴趣分类方法 - Google Patents

一种用户兴趣分类方法 Download PDF

Info

Publication number
CN111026960B
CN111026960B CN201911211976.2A CN201911211976A CN111026960B CN 111026960 B CN111026960 B CN 111026960B CN 201911211976 A CN201911211976 A CN 201911211976A CN 111026960 B CN111026960 B CN 111026960B
Authority
CN
China
Prior art keywords
user
ucb
data
frequency distribution
exposure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911211976.2A
Other languages
English (en)
Other versions
CN111026960A (zh
Inventor
雷鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Microphone Culture Media Co ltd
Original Assignee
Shanghai Microphone Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Microphone Culture Media Co ltd filed Critical Shanghai Microphone Culture Media Co ltd
Priority to CN201911211976.2A priority Critical patent/CN111026960B/zh
Publication of CN111026960A publication Critical patent/CN111026960A/zh
Application granted granted Critical
Publication of CN111026960B publication Critical patent/CN111026960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了数据分类技术领域的种用户兴趣分类方法,使用UCB方法来计算用户的兴趣偏好,是在近实时的情况下进行计算,借助大数据工具Spark Streaming系统+Kafka系统+Hbase系统来搭建整个计算流程,本发明通过UCB算法来构建置信区间曲线,通过实际的反馈不断重新计算UCB的值,以达到动态调整置信区间曲线,使其不断拟合趋近于真实的概率分布曲线,某个类别的UCB的值越大,代表用户更喜欢这个类别,使用UCB方法来计算用户的兴趣偏好,对用户对歌曲的兴趣偏好进行分类,方便根据用户的兴趣进行偏好歌曲的推送,以及服务器数据的更新。

Description

一种用户兴趣分类方法
技术领域
本发明涉及数据分类技术领域,具体为一种用户兴趣分类方法。
背景技术
互联网产品上线后,都会面临一个问题,当有新用户来的时候,不可避免会遇到冷启动的问题,新用户的曝光和播放次数相对较少,如何提高新用户的留存率,尽可能的让用户习惯使用自己的产品一直是研究的难点,解决问题的一个方向就是获取用户的兴趣类别,然后有的放矢的为用户进行个性化推荐,这样可以达到事半功倍的效果。
当前互联网产品特别是音频类产品针对新用户的提高留存的方法,一般是尽量推荐产品中现有的比较热门的专辑,一般认为热门的专辑对于新用户具有比较大的吸引力,通过积累一定的用户的点击,播放,购买等行为之后,根据模型计算预测用户的兴趣偏好类别,这种方法导致的结果是预测用户的兴趣类别是比较偏热门的类别,而偏冷门的类别却没有更多的曝光机会,导致预测用户的兴趣出现偏差,基于此,本发明设计了一种用户兴趣分类方法,以解决上述问题。
发明内容
本发明的目的在于提供一种用户兴趣分类方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种用户兴趣分类方法,使用UCB方法来计算用户的兴趣偏好,是在近实时的情况下进行计算,借助大数据工具SparkStreaming系统+Kafka系统+Hbase系统来搭建整个计算流程,整个计算流程步骤如下:
S1:服务器通过Kafka系统将原始数据收据,并通过Kafka系统传输到下游;
S2:通过Spark Streaming系统接收步骤S1中Kafka系统传输下来的数据,并将传输下来的数据解析聚合成计算机语言的数据格式,再通过Kafka系统传输到下游;
S3:下游通过Spark Streaming系统接收步骤S2中Kafka系统传输下来的解析合成数据,首先对传输下来的解析合成数据进行解析,实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布,并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布,代入UCB公式,得到当前批次用户的各个类别UCB的最新值;
S4:将步骤S3中计算后得出的当前批次的用户的最新的各个类别的曝光次数分布、播放次数分布、UCB分值进行分类,同步更新到Hbase系统中,方便服务器根据用户的兴趣进行分类推送。
优选的,所述Kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
优选的,所述Spark Streaming系统对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理,所述Spark Streaming系统接收到实时数据流同时将其划分为分批,这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流。
优选的,所述Spark是专为大规模数据处理而设计的快速通用的计算引擎,所述API是一些预先定义的函数,或指软件系统不同组成部分衔接的约定,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,或理解内部工作机制的细节。
优选的,所述Hbase系统是一个分布式的、面向列的开源数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。
优选的,所述PCServer是电脑服务器,是指网络中能对其它机器提供某些服务的计算机系统。
优选的,所述UCB公式为
整个公式由两部分组成收益+探索两部分组成,前者是倾向于推荐当前平均播放收益大的类别的音频产品,后者是倾向于推荐曝光次数相对较少的类别的音频产品。
所述PCj和PHj为用户在类别j的当前批次的播放次数和历史播放次数,PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数,VCj和VHj为用户在类别j的当前批次的曝光次数和历史曝光次数,VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数,参数β控制收益部分和探索部分的比重;β越小,越倾向推荐曝光机会相对较少的音频产品,默认为0.4。
与现有技术相比,本发明的有益效果是:本发明通过UCB算法来构建置信区间曲线(收益+探索),通过实际的反馈不断重新计算UCB的值,以达到动态调整置信区间曲线,使其不断拟合趋近于真实的概率分布曲线,某个类别的UCB的值越大,代表用户更喜欢这个类别,使用UCB方法来计算用户的兴趣偏好,对用户对歌曲的兴趣偏好进行分类,方便根据用户的兴趣进行偏好歌曲的推送,以及服务器数据的更新。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明计算流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种用户兴趣分类方法,使用UCB方法来计算用户的兴趣偏好,是在近实时的情况下进行计算,借助大数据工具Spark Streaming系统+Kafka系统+Hbase系统来搭建整个计算流程,整个计算流程步骤如下:
S1:服务器通过Kafka系统将原始数据收据,并通过Kafka系统传输到下游,Kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据;
S2:通过Spark Streaming系统接收步骤S1中Kafka系统传输下来的数据,并将传输下来的数据解析聚合成计算机语言的数据格式,再通过Kafka系统传输到下游,SparkStreaming系统对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理,Spark Streaming系统接收到实时数据流同时将其划分为分批,这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流;
S3:下游通过Spark Streaming系统接收步骤S2中Kafka系统传输下来的解析合成数据,首先对传输下来的解析合成数据进行解析,实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布,并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布,代入UCB公式,得到当前批次用户的各个类别UCB的最新值,Hbase系统是一个分布式的、面向列的开源数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群,UCB公式为
整个公式由两部分组成收益+探索两部分组成,前者是倾向于推荐当前平均播放收益大的类别的音频产品,后者是倾向于推荐曝光次数相对较少的类别的音频产品;
S4:将步骤S3中计算后得出的当前批次的用户的最新的各个类别的曝光次数分布、播放次数分布、UCB分值进行分类,同步更新到Hbase系统中,方便服务器根据用户的兴趣进行分类推送。
其中,Spark是专为大规模数据处理而设计的快速通用的计算引擎,API是一些预先定义的函数,或指软件系统不同组成部分衔接的约定,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,或理解内部工作机制的细节。
其中,PCServer是电脑服务器,是指网络中能对其它机器提供某些服务的计算机系统。
其中,所述PCj和PHj为用户在类别j的当前批次的播放次数和历史播放次数,PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数,VCj和VHj为用户在类别j的当前批次的曝光次数和历史曝光次数,VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数,参数β控制收益部分和探索部分的比重;β越小,越倾向推荐曝光机会相对较少的音频产品,默认为0.4。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.一种用户兴趣分类方法,其特征在于:使用UCB方法来计算用户的兴趣偏好,是在近实时的情况下进行计算,借助大数据工具SparkStreaming系统+Kafka系统+Hbase系统来搭建整个计算流程,整个计算流程步骤如下:
S1:服务器通过Kafka系统将原始数据收据,并通过Kafka系统传输到下游;
S2:通过SparkStreaming系统接收步骤S1中Kafka系统传输下来的数据,并将传输下来的数据解析聚合成计算机语言的数据格式,再通过Kafka系统传输到下游;
S3:下游通过SparkStreaming系统接收步骤S2中Kafka系统传输下来的解析合成数据,首先对传输下来的解析合成数据进行解析,实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布,并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布,代入UCB公式,得到当前批次用户的各个类别UCB的最新值;所述UCB公式为
整个公式由两部分组成收益+探索两部分组成,前者是倾向于推荐当前平均播放收益大的类别的音频产品,后者是倾向于推荐曝光次数相对较少的类别的音频产品;
所述PCj和PHj为用户在类别j的当前批次的播放次数和历史播放次数,PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数,VCj和VHj为用户在类别j的当前批次的曝光次数和历史曝光次数,VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数,参数β控制收益部分和探索部分的比重;
S4:将步骤S3中计算后得出的当前批次的用户的最新的各个类别的曝光次数分布、播放次数分布、UCB分值进行分类,同步更新到Hbase系统中,方便服务器根据用户的兴趣进行分类推送。
2.根据权利要求1所述的一种用户兴趣分类方法,其特征在于:所述Kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
3.根据权利要求1所述的一种用户兴趣分类方法,其特征在于:所述Spark Streaming系统对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理,所述SparkStreaming系统接收到实时数据流同时将其划分为分批,这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流。
4.根据权利要求3所述的一种用户兴趣分类方法,其特征在于:所述Spark是专为大规模数据处理而设计的快速通用的计算引擎,所述API是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。
5.根据权利要求1所述的一种用户兴趣分类方法,其特征在于:所述Hbase系统是一个分布式的、面向列的开源数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。
6.根据权利要求5所述的一种用户兴趣分类方法,其特征在于:所述PCServer是电脑服务器,是指网络中能对其它机器提供某些服务的计算机系统。
CN201911211976.2A 2019-12-02 2019-12-02 一种用户兴趣分类方法 Active CN111026960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911211976.2A CN111026960B (zh) 2019-12-02 2019-12-02 一种用户兴趣分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911211976.2A CN111026960B (zh) 2019-12-02 2019-12-02 一种用户兴趣分类方法

Publications (2)

Publication Number Publication Date
CN111026960A CN111026960A (zh) 2020-04-17
CN111026960B true CN111026960B (zh) 2023-09-01

Family

ID=70207741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911211976.2A Active CN111026960B (zh) 2019-12-02 2019-12-02 一种用户兴趣分类方法

Country Status (1)

Country Link
CN (1) CN111026960B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595461A (zh) * 2018-01-05 2018-09-28 武汉斗鱼网络科技有限公司 兴趣探索方法、存储介质、电子设备及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016642A1 (en) * 2010-07-14 2012-01-19 Yahoo! Inc. Contextual-bandit approach to personalized news article recommendation
US20140351052A1 (en) * 2013-05-24 2014-11-27 Harbhajan S. Khalsa Contextual Product Recommendation Engine

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595461A (zh) * 2018-01-05 2018-09-28 武汉斗鱼网络科技有限公司 兴趣探索方法、存储介质、电子设备及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋 ; .基于云计算的用户兴趣建模.教师.2010,(19),全文. *

Also Published As

Publication number Publication date
CN111026960A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
US20220027359A1 (en) Online hyperparameter tuning in distributed machine learning
JP6855595B2 (ja) ライブストリームコンテンツを推奨するための機械学習の使用
US10380500B2 (en) Version control for asynchronous distributed machine learning
CN107122455B (zh) 一种基于微博的网络用户增强表示方法
TWI475412B (zh) 數位內容次序調整方法和數位內容匯流器
CN104063481A (zh) 一种基于用户实时兴趣向量的电影个性化推荐方法
TWI793170B (zh) 使用深度神經語言模型於自動出價之系統、裝置與方法
CN108109008A (zh) 用于预估广告的点击率的方法、装置、设备和存储介质
CN104216931A (zh) 实时推荐系统及方法
WO2015039230A1 (en) System and method for continuous social communication
EP3353670A1 (en) Regularized model adaptation for in-session recommendations
CN104331459A (zh) 一种基于在线学习的网络资源推荐方法及装置
CN109903138B (zh) 一种个性化商品推荐方法
CN112765480A (zh) 一种信息推送方法、装置及计算机可读存储介质
CN111475739B (zh) 一种基于元路径的异质社交网络用户锚链接识别方法
CN108664558A (zh) 一种面向大规模用户的网络电视个性化推荐服务方法
CN112800109A (zh) 一种信息挖掘方法及系统
Serrano Intelligent recommender system for big data applications based on the random neural network
WO2022182951A1 (en) Automated machine learning to generate recommendations for websites or applications
CN111026960B (zh) 一种用户兴趣分类方法
JP6692739B2 (ja) 抽出装置、抽出方法及び抽出プログラム
US20180285473A1 (en) Systems and Methods for Multiobjective Optimization
WO2023087933A1 (zh) 内容推荐方法、装置、设备、存储介质及程序产品
Lei et al. Personalized Item Recommendation Algorithm for Outdoor Sports
US20220358114A1 (en) Updating compatible distributed data files across multiple data streams of an electronic messaging service associated with various networked computing devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant