CN111046224A - 一种音频产品的实时召回方法 - Google Patents

一种音频产品的实时召回方法 Download PDF

Info

Publication number
CN111046224A
CN111046224A CN201911212362.6A CN201911212362A CN111046224A CN 111046224 A CN111046224 A CN 111046224A CN 201911212362 A CN201911212362 A CN 201911212362A CN 111046224 A CN111046224 A CN 111046224A
Authority
CN
China
Prior art keywords
real
recall
time
album
albums
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911212362.6A
Other languages
English (en)
Other versions
CN111046224B (zh
Inventor
雷鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Microphone Culture Media Co ltd
Original Assignee
Shanghai Microphone Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Microphone Culture Media Co ltd filed Critical Shanghai Microphone Culture Media Co ltd
Priority to CN201911212362.6A priority Critical patent/CN111046224B/zh
Publication of CN111046224A publication Critical patent/CN111046224A/zh
Application granted granted Critical
Publication of CN111046224B publication Critical patent/CN111046224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了实时召回技术领域的一种音频产品的实时召回方法,包括如下步骤:S1:实时触发推荐,S2:实时召回策略,S3:去重和过滤,S4:添加权重,S5:精排;本发明在音频类产品的独特的推荐场景下能实时对音频产品进行召回,覆盖率高、效果精准的个性化在线推荐系统,方便工作人员对音频产品的数据实时化召回工作,减少工作人员的工作负担,提高工作人员的召回工作效率。

Description

一种音频产品的实时召回方法
技术领域
本发明涉及实时召回技术领域,具体为一种音频产品的实时召回方法。
背景技术
在当今的互联网产品中,推荐系统越来越成为标配,例如电商平台推荐商品,新闻APP推荐新闻等,在音频领域中,为用户进行个性化推荐的最小的单位是专辑,专辑下又划分各个小的节目,有的音频产品专辑数是远远小于自己的用户数,如何在这种独特的场景下,开发性能稳定而且效果精准的个性化在线推荐系统,是一个难度颇高且需要不断探索的难题。
性化推荐系统中最重要的一个环节是召回环节,它主要作用是是从几百万甚至上千万的商品中基于用户的兴趣类型从中过滤出几千到几百个商品,决定了最终推荐效果的上限,基于此,本发明设计了一种音频产品的实时召回方法,以解决上述问题。
发明内容
本发明的目的在于提供一种音频产品的实时召回方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种音频产品的实时召回方法,包括如下步骤:
S1:实时触发推荐
基于用户发生实时有效收听行为或实时搜索点击行为进行触发,这里的有效收听标准是用户收听专辑超过60s或者用户收听专辑时长是该专辑的所有节目平均时长的一半以上,搜索点击行为指的是用户通过搜索框搜索关键词后,得到搜索列表后,点击专辑,则触发推荐;
S2:实时召回策略
由步骤S1中的触发推荐根据相关度、播放热度、Embedding、新鲜度以及ALS离线构建事实召回策略;
S3:去重和过滤
对于优先级高的召回策略召回的专辑,排在前面,目标数量设定偏大,优先级次之的召回策略的专辑排在后面,目前数量偏小,并且需要和之前优先级高的召回专辑进行去重,过滤主要是对昨天曝光过、最近30天收听过、收藏过、分享过的专辑进行过滤;
S4:添加权重
为了方便后续之后的排序流程的特征计算等流程,在召回集的每个召回专辑添加加权权重,类别ID等专辑属性值,方便后续的排序分值计算和重排序流程;
S5:精排
通过XGboost,深度学习预测机器学习模型,得到每个用户对自己的召回专辑池中的各个专辑的预测分值,分值范围在0~1之间,基于召回池的商品的预测分值对商品进行排序。
优选的,所述Embedding实质是一种映射,从语义空间到向量空间的映射,同时尽可能在向量空间保持原样本在语义空间的关系。
优选的,所述ALS是已经集成到Spark的Mllib库中的算法,不同于协同过滤求用户间相似度,而是一种基于矩阵分解的算法。
优选的,所述Spark是专为大规模数据处理而设计的快速通用的计算引擎,所述Mllib库是Spark的机器学习库,其目标是使实用的机器学习具有可扩展性和容易性。
优选的,所述XGboost是应用牛顿法(二阶泰勒展开)加入正则项,对每棵树的复杂度进行惩罚,防止过拟合,支持并行化,闪光点,虽然树与树串行,但同层级节点可并行,候选分裂点计算增益用多线程并行,训练速度快。
与现有技术相比,本发明的有益效果是:本发明在音频类产品的独特的推荐场景下能实时对音频产品进行召回,覆盖率高、效果精准的个性化在线推荐系统,方便工作人员对音频产品的数据实时化召回工作,减少工作人员的工作负担,提高工作人员的召回工作效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明召回流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种音频产品的实时召回方法,包括如下步骤:
S1:实时触发推荐
基于用户发生实时有效收听行为或实时搜索点击行为进行触发,这里的有效收听标准是用户收听专辑超过60s或者用户收听专辑时长是该专辑的所有节目平均时长的一半以上,搜索点击行为指的是用户通过搜索框搜索关键词后,得到搜索列表后,点击专辑,则触发推荐;
S2:实时召回策略
由步骤S1中的触发推荐根据相关度、播放热度、Embedding、新鲜度以及ALS离线构建事实召回策略,Embedding实质是一种映射,从语义空间到向量空间的映射,同时尽可能在向量空间保持原样本在语义空间的关系,ALS是已经集成到Spark的Mllib库中的算法,不同于协同过滤求用户间相似度,而是一种基于矩阵分解的算法;
S3:去重和过滤
对于优先级高的召回策略召回的专辑,排在前面,目标数量设定偏大,优先级次之的召回策略的专辑排在后面,目前数量偏小,并且需要和之前优先级高的召回专辑进行去重,过滤主要是对昨天曝光过、最近30天收听过、收藏过、分享过的专辑进行过滤;
S4:添加权重
为了方便后续之后的排序流程的特征计算等流程,在召回集的每个召回专辑添加加权权重,类别ID等专辑属性值,方便后续的排序分值计算和重排序流程;
S5:精排
通过XGboost,深度学习预测机器学习模型,得到每个用户对自己的召回专辑池中的各个专辑的预测分值,分值范围在0~1之间,基于召回池的商品的预测分值对商品进行排序,XGboost是应用牛顿法(二阶泰勒展开)加入正则项,对每棵树的复杂度进行惩罚,防止过拟合,支持并行化,闪光点,虽然树与树串行,但同层级节点可并行,候选分裂点计算增益用多线程并行,训练速度快。
其中,Spark是专为大规模数据处理而设计的快速通用的计算引擎,Mllib库是Spark的机器学习库,其目标是使实用的机器学习具有可扩展性和容易性。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.一种音频产品的实时召回方法,其特征在于,包括如下步骤:
S1:实时触发推荐
基于用户发生实时有效收听行为或实时搜索点击行为进行触发,这里的有效收听标准是用户收听专辑超过60s或者用户收听专辑时长是该专辑的所有节目平均时长的一半以上,搜索点击行为指的是用户通过搜索框搜索关键词后,得到搜索列表后,点击专辑,则触发推荐;
S2:实时召回策略
由步骤S1中的触发推荐根据相关度、播放热度、Embedding、新鲜度以及ALS离线构建事实召回策略;
S3:去重和过滤
对于优先级高的召回策略召回的专辑,排在前面,目标数量设定偏大,优先级次之的召回策略的专辑排在后面,目前数量偏小,并且需要和之前优先级高的召回专辑进行去重,过滤主要是对昨天曝光过、最近30天收听过、收藏过、分享过的专辑进行过滤;
S4:添加权重
为了方便后续之后的排序流程的特征计算流程,在召回集的每个召回专辑添加加权权重,类别ID专辑属性值,方便后续的排序分值计算和重排序流程;
S5:精排
通过XGboost,深度学习预测机器学习模型,得到每个用户对自己的召回专辑池中的各个专辑的预测分值,分值范围在0~1之间,基于召回池的商品的预测分值对商品进行排序。
2.根据权利要求1所述的一种音频产品的实时召回方法,其特征在于:所述Embedding实质是一种映射,从语义空间到向量空间的映射,同时尽可能在向量空间保持原样本在语义空间的关系。
3.根据权利要求1所述的一种音频产品的实时召回方法,其特征在于:所述ALS是已经集成到Spark的Mllib库中的算法,不同于协同过滤求用户间相似度,而是一种基于矩阵分解的算法。
4.根据权利要求1所述的一种音频产品的实时召回方法,其特征在于:所述Spark是专为大规模数据处理而设计的快速通用的计算引擎,所述Mllib库是Spark的机器学习库,其目标是使实用的机器学习具有可扩展性和容易性。
5.根据权利要求1所述的一种音频产品的实时召回方法,其特征在于:所述XGboost是应用牛顿法(二阶泰勒展开)加入正则项,对每棵树的复杂度进行惩罚,防止过拟合,支持并行化,闪光点,虽然树与树串行,但同层级节点可并行,候选分裂点计算增益用多线程并行,训练速度快。
CN201911212362.6A 2019-12-02 2019-12-02 一种音频产品的实时召回方法 Active CN111046224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911212362.6A CN111046224B (zh) 2019-12-02 2019-12-02 一种音频产品的实时召回方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911212362.6A CN111046224B (zh) 2019-12-02 2019-12-02 一种音频产品的实时召回方法

Publications (2)

Publication Number Publication Date
CN111046224A true CN111046224A (zh) 2020-04-21
CN111046224B CN111046224B (zh) 2023-04-07

Family

ID=70233254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911212362.6A Active CN111046224B (zh) 2019-12-02 2019-12-02 一种音频产品的实时召回方法

Country Status (1)

Country Link
CN (1) CN111046224B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652631A (zh) * 2020-06-09 2020-09-11 创新奇智(成都)科技有限公司 商品召回方法、装置、电子设备及计算机可读存储介质
CN113722537A (zh) * 2021-08-11 2021-11-30 北京奇艺世纪科技有限公司 短视频排序及模型训练方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149378A1 (en) * 2013-11-26 2015-05-28 Chegg, Inc. Job recall services in online education platforms
CN104750789A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 标签的推荐方法及装置
CN110399550A (zh) * 2019-03-14 2019-11-01 腾讯科技(深圳)有限公司 一种信息推荐方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149378A1 (en) * 2013-11-26 2015-05-28 Chegg, Inc. Job recall services in online education platforms
CN104750789A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 标签的推荐方法及装置
CN110399550A (zh) * 2019-03-14 2019-11-01 腾讯科技(深圳)有限公司 一种信息推荐方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李成等: "推荐系统准确度衡量方案――引入权重概念", 《工业设计研究》 *
郝胜男等: "一种基于ElasticSearch的推荐系统架构", 《电脑知识与技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652631A (zh) * 2020-06-09 2020-09-11 创新奇智(成都)科技有限公司 商品召回方法、装置、电子设备及计算机可读存储介质
CN113722537A (zh) * 2021-08-11 2021-11-30 北京奇艺世纪科技有限公司 短视频排序及模型训练方法、装置、电子设备和存储介质
CN113722537B (zh) * 2021-08-11 2024-04-26 北京奇艺世纪科技有限公司 短视频排序及模型训练方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111046224B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN110442790A (zh) 推荐多媒体数据的方法、装置、服务器和存储介质
CN111046224B (zh) 一种音频产品的实时召回方法
CN110175895B (zh) 一种物品推荐方法及装置
CN109948036B (zh) 一种分词词项权重的计算方法和装置
CN107346433A (zh) 一种文本数据分类方法及服务器
CN110942376B (zh) 一种音频类产品的实时多召回策略的融合方法
CN103559205A (zh) 基于MapReduce的并行特征选择方法
CN111859133B (zh) 一种推荐方法及在线预测模型的发布方法和装置
CN111611488A (zh) 基于人工智能的信息推荐方法、装置、电子设备
WO2019142052A2 (en) Elastic distribution queuing of mass data for the use in director driven company assessment
CN106776575A (zh) 一种实时语义搜索工作机会的系统及方法
Abdel-Baset et al. Cuckoo search and genetic algorithm hybrid schemes for optimization problems
CN111491202A (zh) 一种视频发布方法、装置、设备和存储介质
CN106407379A (zh) 一种基于Hadoop平台的电影推荐方法
Akyol et al. Modeling and Predicting of News Popularity in Social Media Sources.
CN111062511A (zh) 基于决策树与神经网络的水产养殖病害预测方法及系统
CN104331510B (zh) 信息管理方法和装置
CN111667018A (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
CN107368464B (zh) 一种获取招标产品信息的方法及装置
CN111159135A (zh) 数据处理方法、装置、电子设备及存储介质
CN116089713A (zh) 推荐模型训练方法、推荐方法、装置及计算机设备
CN111435514A (zh) 特征计算方法和装置、排序方法和设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant