CN110781342A - 一种基于用户行为序列和数据融合的推荐系统召回方法及系统 - Google Patents
一种基于用户行为序列和数据融合的推荐系统召回方法及系统 Download PDFInfo
- Publication number
- CN110781342A CN110781342A CN201910952329.0A CN201910952329A CN110781342A CN 110781342 A CN110781342 A CN 110781342A CN 201910952329 A CN201910952329 A CN 201910952329A CN 110781342 A CN110781342 A CN 110781342A
- Authority
- CN
- China
- Prior art keywords
- data
- behavior
- word2vec
- recall
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000001960 triggered effect Effects 0.000 claims abstract description 12
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 230000000717 retained effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 description 146
- 230000003542 behavioural effect Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户行为序列和数据融合的推荐系统召回方法及系统,所述方法包括获取网络音乐平台上用户的不同行为类型的音频专辑序列数据;对音频专辑序列数据进行数据预处理;分别将进行数据预处理后得到的不同行为类型的音频专辑序列数据对Word2Vec模型进行训练得到对应的不同行为类型的Word2Vec行为模型;通过不同行为类型的Word2Vec行为模型分别对用户行为序列对应的被触发的音频专辑进行召回,得到对应的召回集;对不同行为类型的Word2Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集。本发明考虑到了用户的各种行为序列,同时结合多Word2Vec模型的融合策略,有效提升了召回的准确性和召回的覆盖度。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于用户行为序列和数据融合的推荐系统召回方法及系统。
背景技术
目前业界流行的推荐算法架构分成经典的三个部分,包括粗排召回,精排,和业务逻辑排序。其中每一部分都具有很多不同的算法模型实现,但已有的各种粗排召回算法在音频领域效果一般,无论是召回的覆盖度还是音频节目之间的精准度,都有待进一步优化提高,且没有考虑到用户不同的行为对召回结果带来的影响。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,特别创新地提出了一种基于用户行为序列和数据融合的推荐系统召回方法及系统,能够有效提升召回的准确性和召回的覆盖度。
为了实现本发明的上述目的,根据本发明的第一个方面,本发明提供了一种基于用户行为序列和数据融合的推荐系统召回方法,所述方法包括如下步骤:
获取网络音乐平台上用户的不同行为类型的音频专辑序列数据;
对所述音频专辑序列数据进行数据预处理;
分别将进行数据预处理后得到的所述不同行为类型的音频专辑序列数据对Word2Vec模型进行训练得到对应的不同行为类型的Word2Vec行为模型;
通过不同行为类型的所述Word2Vec行为模型分别对所述用户行为序列对应的被触发的音频专辑进行召回,得到对应的召回集;
对不同行为类型的所述Word2Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集。
优选地,所述行为类型包括点击、播放、搜索、收藏和下载,对应地,所述Word2Vec行为模型包括Word2Vec点击模型、Word2Vec播放模型、Word2Vec搜索模型、Word2Vec收藏模型和Word2Vec下载模型。
优选地,所述获取网络音乐平台上用户的不同行为类型的音频专辑序列数据包括:
获取网络音乐平台上的用户行为序列;
基于所述用户行为序列按照用户对音频专辑的用户行为的时间顺序进行排序得到不同行为类型的音频专辑序列数据。
优选地,所述对所述音频专辑序列数据进行数据预处理包括:
对所述音频专辑序列数据进行数据清洗。
优选地,所述对不同行为类型的所述Word2Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集包括:
对不同行为类型的所述Word2Vec行为模型对应的召回集中音频专辑名相同但得分不同的数据,按照取最大得分的原则保留该音频专辑最大得分的那条数据,同时保留不同行为类型的所述Word2Vec行为模型对应的召回集中音频专辑名不同的相关数据,将所述保留得到的数据进行整理合并得到所述推荐系统召回数据集。
根据本发明的第二个方面,本发明提供了一种基于用户行为序列和数据融合的推荐系统召回系统,所述系统包括:
数据获取模块,用于获取网络音乐平台上用户的不同行为类型的音频专辑序列数据;
数据预处理模块,用于对所述音频专辑序列数据进行数据预处理;
模型训练模块,用于分别将进行数据预处理后得到的所述不同行为类型的音频专辑序列数据对Word7Vec模型进行训练得到对应的不同行为类型的Word7Vec行为模型;
数据召回模块,用于通过不同行为类型的所述Word7Vec行为模型分别对所述用户行为序列对应的被触发的音频专辑进行召回,得到对应的召回集;
数据融合模块,对不同行为类型的所述Word7Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集。
优选地,所述行为类型包括点击、播放、搜索、收藏和下载,对应地,所述Word7Vec行为模型包括Word7Vec点击模型、Word7Vec播放模型、Word7Vec搜索模型、Word7Vec收藏模型和Word7Vec下载模型。
优选地,所述数据获取模块具体用于:
获取网络音乐平台上的用户行为序列;
基于所述用户行为序列按照用户对音频专辑的用户行为的时间顺序进行排序得到不同行为类型的音频专辑序列数据。
优选地,所述数据预处理模块具体用于:
对所述音频专辑序列数据进行数据清洗。
优选地,所述数据融合模块具体用于:
对不同行为类型的所述Word7Vec行为模型对应的召回集中音频专辑名相同但得分不同的数据,按照取最大得分的原则保留该音频专辑最大得分的那条数据,同时保留不同行为类型的所述Word7Vec行为模型对应的召回集中音频专辑名不同的相关数据,将所述保留得到的数据进行整理合并得到所述推荐系统召回数据集。
由以上方案可知,本发明提供了一种基于用户行为序列和数据融合的推荐系统召回方法及系统,所述方法包括获取网络音乐平台上用户的不同行为类型的音频专辑序列数据;对所述音频专辑序列数据进行数据预处理;分别将进行数据预处理后得到的所述不同行为类型的音频专辑序列数据对Word2Vec模型进行训练得到对应的不同行为类型的Word2Vec行为模型;通过不同行为类型的所述Word2Vec行为模型分别对所述用户行为序列对应的被触发的音频专辑进行召回,得到对应的召回集;对不同行为类型的所述Word2Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集。本发明考虑到了用户的各种行为序列,将用户的多种行为序列转成用户对音频专辑序列数据,然后将音频专辑序列数据作为Word2Vec模型的训练语料训练模型,得到的每个模型在单个召回时优势各不相同,再通过多Word2Vec模型的融合策略,有效提升了召回的准确性和召回的覆盖度。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明提供的一种优选实施方式中基于用户行为序列和数据融合的推荐系统召回方法的流程示意图;
图2是本发明提供的一种优选实施方式中基于用户行为序列和数据融合的推荐系统召回系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
根据本发明的第一个方面,本发明提供了一种基于用户行为序列和数据融合的推荐系统召回方法,如图1所示,所述方法可以包括如下步骤:
S101,获取网络音乐平台上用户的不同行为类型的音频专辑序列数据;
为了能够能更好地为用户推荐用满足用户需求的音频专辑,提升用户体验,在网络音乐平台中,通过配置相应的推荐系统来召回用户感兴趣的相应音频专辑。本实施例中,在通过推荐系统对网络音乐平台的音频专辑进行召回时,首先需要获取网络音乐平台上用户的不同行为类型的音频专辑序列数据。每一个音频专辑相当于一个词,不同的用户行为得到不同的有序音频专辑序列。具体地,可以通过如下方式进行:首先获取网络音乐平台上的用户行为序列,然后基于用户行为序列按照用户对音频专辑的用户行为的时间顺序进行排序得到不同行为类型的音频专辑序列数据,即将用户的多种行为序列,转成用户对音频专辑的时间序列。其中,用户行为序列可以通过数据后台或者相应的推荐系统运行日志进行整理得到。在本实施方式中,行为类型具体可以包括但不限于点击、播放、搜索、收藏和下载。
S102,对音频专辑序列数据进行数据预处理;
获取到的音频专辑序列数据由于存在一些脏数据或者无用数据,因此需要对音频专辑序列数据进行数据预处理。具体地,在本实施方式中,数据预处理可以是数据清洗,数据清洗即按照一定的规则把“脏数据”“洗掉”,通过数据清洗过滤掉一些不符合要求的数据,以免干扰后续的数据分析,这些不符合要求的数据主要包括残缺数据、错误数据和重复数据。例如,在数据提取阶段,偶尔会出现空白值的情况,需要把包含空白值的用户剔除掉。
S103,分别将进行数据预处理后得到的不同行为类型的音频专辑序列数据对Word2Vec模型进行训练得到对应的不同行为类型的Word2Vec行为模型;
接着,需要分别将进行数据预处理后得到的不同行为类型的音频专辑序列数据对Word2Vec模型进行训练得到对应的不同行为类型的Word2Vec行为模型,即将音频专辑序列数据作为Word2Vec的训练语料,训练Word2Vec模型,从而得到相应的不同行为类型的Word2Vec行为模型,这样能很好地挖掘出相似专辑之间的关系。Word2Vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。训练完成之后,Word2Vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。Word2Vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式。具体地,在本实施方式中,通过对用户的点击、播放、搜索、收藏和下载等行为的对应的音频专辑序列数据对Word2Vec模型进行训练得相应的Word2Vec点击模型、Word2Vec播放模型、Word2Vec搜索模型、Word2Vec收藏模型和Word2Vec下载模型。
S104,通过不同行为类型的Word2Vec行为模型分别对用户行为序列对应的被触发的音频专辑进行召回,得到对应的召回集;
接着,需要将训练得到的不同行为类型的Word2Vec行为模型分别对用户行为序列对应的被触发的音频专辑进行召回,以得到多个不同的对应的召回集。所谓召回,即向用户粗选一批待推荐的音频专辑,相当于粗排序,之后会加一层CTR预估的RANK模型,相当于精排序,推荐系统的主要模块即为:粗排召回模块、精排序模块和过滤模块,其中过滤模块用于对最终展示的音频专辑进行过滤,实现多样性排序等。
S105,对不同行为类型的Word2Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集。
最后,为了得到精确度高、覆盖范围广的推荐系统召回数据集,需要对不同行为类型的Word2Vec行为模型对应的召回集进行数据融合。具体地,在本实施方式中,数据融合具体为对不同行为类型的Word2Vec行为模型对应的召回集中音频专辑名相同但得分不同的数据,按照取最大得分的原则保留该音频专辑最大得分的那条数据,同时保留不同行为类型的Word2Vec行为模型对应的召回集中音频专辑名不同的相关数据,将保留得到的数据进行整理合并得到推荐系统召回数据集。上述得分具体可以是网络音乐平台中用户对音频专辑的评分。
由以上方案可知,本发明提供了一种基于用户行为序列和数据融合的推荐系统召回方法,首先获取网络音乐平台上用户的不同行为类型的音频专辑序列数据;然后对音频专辑序列数据进行数据预处理;接着分别将进行数据预处理后得到的不同行为类型的音频专辑序列数据对Word2Vec模型进行训练得到对应的不同行为类型的Word2Vec行为模型;接着通过不同行为类型的Word2Vec行为模型分别对用户行为序列对应的被触发的音频专辑进行召回,得到对应的召回集;最后对不同行为类型的Word2Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集。本发明考虑到了用户的各种行为序列,将用户的多种行为序列转成用户对音频专辑序列数据,然后将音频专辑序列数据作为Word2Vec模型的训练语料训练模型,得到的每个模型在单个召回时优势各不相同,再通过多Word2Vec模型的融合策略,有效提升了召回的准确性和召回的覆盖度。
根据本发明的第二个方面,本发明提供了一种基于用户行为序列和数据融合的推荐系统召回系统,如图2所示,所述系统可以包括:
数据获取模块201,用于获取网络音乐平台上用户的不同行为类型的音频专辑序列数据;
为了能够能更好地为用户推荐用满足用户需求的音频专辑,提升用户体验,在网络音乐平台中,通过配置相应的推荐系统来召回用户感兴趣的相应音频专辑。本实施例中,在通过推荐系统对网络音乐平台的音频专辑进行召回时,首先需要获取网络音乐平台上用户的不同行为类型的音频专辑序列数据。每一个音频专辑相当于一个词,不同的用户行为得到不同的有序音频专辑序列。具体地,可以通过如下方式进行:首先获取网络音乐平台上的用户行为序列,然后基于用户行为序列按照用户对音频专辑的用户行为的时间顺序进行排序得到不同行为类型的音频专辑序列数据,即将用户的多种行为序列,转成用户对音频专辑的时间序列。其中,用户行为序列可以通过数据后台或者相应的推荐系统运行日志进行整理得到。在本实施方式中,行为类型具体可以包括但不限于点击、播放、搜索、收藏和下载。
数据预处理模块202,用于对音频专辑序列数据进行数据预处理;
获取到的音频专辑序列数据由于存在一些脏数据或者无用数据,因此需要对音频专辑序列数据进行数据预处理。具体地,在本实施方式中,数据预处理可以是数据清洗,数据清洗即按照一定的规则把“脏数据”“洗掉”,通过数据清洗过滤掉一些不符合要求的数据,以免干扰后续的数据分析,这些不符合要求的数据主要包括残缺数据、错误数据和重复数据。例如,在数据提取阶段,偶尔会出现空白值的情况,需要把包含空白值的用户剔除掉。
模型训练模块203,用于分别将进行数据预处理后得到的不同行为类型的音频专辑序列数据对Word7Vec模型进行训练得到对应的不同行为类型的Word7Vec行为模型;
接着,需要分别将进行数据预处理后得到的不同行为类型的音频专辑序列数据对Word2Vec模型进行训练得到对应的不同行为类型的Word2Vec行为模型,即将音频专辑序列数据作为Word2Vec的训练语料,训练Word2Vec模型,从而得到相应的不同行为类型的Word2Vec行为模型,这样能很好地挖掘出相似专辑之间的关系。Word2Vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。训练完成之后,Word2Vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。Word2Vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式。具体地,在本实施方式中,通过对用户的点击、播放、搜索、收藏和下载等行为的对应的音频专辑序列数据对Word2Vec模型进行训练得相应的Word2Vec点击模型、Word2Vec播放模型、Word2Vec搜索模型、Word2Vec收藏模型和Word2Vec下载模型。
数据召回模块204,用于通过不同行为类型的Word7Vec行为模型分别对用户行为序列对应的被触发的音频专辑进行召回,得到对应的召回集;
接着,需要将训练得到的不同行为类型的Word2Vec行为模型分别对用户行为序列对应的被触发的音频专辑进行召回,以得到多个不同的对应的召回集。所谓召回,即向用户粗选一批待推荐的音频专辑,相当于粗排序,之后会加一层CTR预估的RANK模型,相当于精排序,推荐系统的主要模块即为:粗排召回模块、精排序模块和过滤模块,其中过滤模块用于对最终展示的音频专辑进行过滤,实现多样性排序等。
数据融合模块205,对不同行为类型的Word7Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集。
最后,为了得到精确度高、覆盖范围广的推荐系统召回数据集,需要对不同行为类型的Word2Vec行为模型对应的召回集进行数据融合。具体地,在本实施方式中,数据融合具体为对不同行为类型的Word2Vec行为模型对应的召回集中音频专辑名相同但得分不同的数据,按照取最大得分的原则保留该音频专辑最大得分的那条数据,同时保留不同行为类型的Word2Vec行为模型对应的召回集中音频专辑名不同的相关数据,将保留得到的数据进行整理合并得到推荐系统召回数据集。上述得分具体可以是网络音乐平台中用户对音频专辑的评分。
由以上方案可知,本发明提供了一种基于用户行为序列和数据融合的推荐系统召回系统,首先获取网络音乐平台上用户的不同行为类型的音频专辑序列数据;然后对音频专辑序列数据进行数据预处理;接着分别将进行数据预处理后得到的不同行为类型的音频专辑序列数据对Word2Vec模型进行训练得到对应的不同行为类型的Word2Vec行为模型;接着通过不同行为类型的Word2Vec行为模型分别对用户行为序列对应的被触发的音频专辑进行召回,得到对应的召回集;最后对不同行为类型的Word2Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集。本发明考虑到了用户的各种行为序列,将用户的多种行为序列转成用户对音频专辑序列数据,然后将音频专辑序列数据作为Word2Vec模型的训练语料训练模型,得到的每个模型在单个召回时优势各不相同,再通过多Word2Vec模型的融合策略,有效提升了召回的准确性和召回的覆盖度。
本实施例中,所述基于用户行为序列和数据融合的推荐系统召回系统集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于用户行为序列和数据融合的推荐系统召回方法,其特征在于,所述方法包括:
获取网络音乐平台上用户的不同行为类型的音频专辑序列数据;
对所述音频专辑序列数据进行数据预处理;
分别将进行数据预处理后得到的所述不同行为类型的音频专辑序列数据对Word2Vec模型进行训练得到对应的不同行为类型的Word2Vec行为模型;
通过不同行为类型的所述Word2Vec行为模型分别对所述用户行为序列对应的被触发的音频专辑进行召回,得到对应的召回集;
对不同行为类型的所述Word2Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集。
2.根据权利要求1所述的基于用户行为序列和数据融合的推荐系统召回方法,其特征在于,所述行为类型包括点击、播放、搜索、收藏和下载,对应地,所述Word2Vec行为模型包括Word2Vec点击模型、Word2Vec播放模型、Word2Vec搜索模型、Word2Vec收藏模型和Word2Vec下载模型。
3.根据权利要1所述的基于用户行为序列和数据融合的推荐系统召回方法,其特征在于,所述获取网络音乐平台上用户的不同行为类型的音频专辑序列数据包括:
获取网络音乐平台上的用户行为序列;
基于所述用户行为序列按照用户对音频专辑的用户行为的时间顺序进行排序得到不同行为类型的音频专辑序列数据。
4.根据权利要求1所述的基于用户行为序列和数据融合的推荐系统召回方法,其特征在于,所述对所述音频专辑序列数据进行数据预处理包括:
对所述音频专辑序列数据进行数据清洗。
5.根据权利要求1-4任意一项所述的基于用户行为序列和数据融合的推荐系统召回方法,其特征在于,所述对不同行为类型的所述Word2Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集包括:
对不同行为类型的所述Word2Vec行为模型对应的召回集中音频专辑名相同但得分不同的数据,按照取最大得分的原则保留该音频专辑最大得分的那条数据,同时保留不同行为类型的所述Word2Vec行为模型对应的召回集中音频专辑名不同的相关数据,将所述保留得到的数据进行整理合并得到所述推荐系统召回数据集。
6.一种基于用户行为序列和数据融合的推荐系统召回系统,其特征在于,所述系统包括:
数据获取模块,用于获取网络音乐平台上用户的不同行为类型的音频专辑序列数据;
数据预处理模块,用于对所述音频专辑序列数据进行数据预处理;
模型训练模块,用于分别将进行数据预处理后得到的所述不同行为类型的音频专辑序列数据对Word7Vec模型进行训练得到对应的不同行为类型的Word7Vec行为模型;
数据召回模块,用于通过不同行为类型的所述Word7Vec行为模型分别对所述用户行为序列对应的被触发的音频专辑进行召回,得到对应的召回集;
数据融合模块,对不同行为类型的所述Word7Vec行为模型对应的召回集进行数据融合,得到推荐系统召回数据集。
7.根据权利要求6所述的基于用户行为序列和数据融合的推荐系统召回系统,其特征在于,所述行为类型包括点击、播放、搜索、收藏和下载,对应地,所述Word7Vec行为模型包括Word7Vec点击模型、Word7Vec播放模型、Word7Vec搜索模型、Word7Vec收藏模型和Word7Vec下载模型。
8.根据权利要6所述的基于用户行为序列和数据融合的推荐系统召回系统,其特征在于,所述数据获取模块具体用于:
获取网络音乐平台上的用户行为序列;
基于所述用户行为序列按照用户对音频专辑的用户行为的时间顺序进行排序得到不同行为类型的音频专辑序列数据。
9.根据权利要求6所述的基于用户行为序列和数据融合的推荐系统召回系统,其特征在于,所述数据预处理模块具体用于:
对所述音频专辑序列数据进行数据清洗。
10.根据权利要求6-9任意一项所述的基于用户行为序列和数据融合的推荐系统召回系统,其特征在于,所述数据融合模块具体用于:
对不同行为类型的所述Word7Vec行为模型对应的召回集中音频专辑名相同但得分不同的数据,按照取最大得分的原则保留该音频专辑最大得分的那条数据,同时保留不同行为类型的所述Word7Vec行为模型对应的召回集中音频专辑名不同的相关数据,将所述保留得到的数据进行整理合并得到所述推荐系统召回数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910952329.0A CN110781342B (zh) | 2019-10-09 | 2019-10-09 | 一种基于用户行为序列和数据融合的推荐系统召回方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910952329.0A CN110781342B (zh) | 2019-10-09 | 2019-10-09 | 一种基于用户行为序列和数据融合的推荐系统召回方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781342A true CN110781342A (zh) | 2020-02-11 |
CN110781342B CN110781342B (zh) | 2024-02-02 |
Family
ID=69385439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910952329.0A Active CN110781342B (zh) | 2019-10-09 | 2019-10-09 | 一种基于用户行为序列和数据融合的推荐系统召回方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781342B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753214A (zh) * | 2020-06-24 | 2020-10-09 | 平安科技(深圳)有限公司 | 基于行为轨迹的数据推送方法、系统和计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018035139A1 (en) * | 2016-08-16 | 2018-02-22 | Ebay Inc. | Semantic forward search indexing of publication corpus |
CN108984731A (zh) * | 2018-07-12 | 2018-12-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌单推荐方法、装置及存储介质 |
CN109948023A (zh) * | 2019-03-08 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 推荐对象获取方法、装置及存储介质 |
-
2019
- 2019-10-09 CN CN201910952329.0A patent/CN110781342B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018035139A1 (en) * | 2016-08-16 | 2018-02-22 | Ebay Inc. | Semantic forward search indexing of publication corpus |
CN108984731A (zh) * | 2018-07-12 | 2018-12-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌单推荐方法、装置及存储介质 |
CN109948023A (zh) * | 2019-03-08 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 推荐对象获取方法、装置及存储介质 |
Non-Patent Citations (3)
Title |
---|
于帅;林宣雄;邱媛媛;: "大规模隐式反馈的词向量音乐推荐模型" * |
周航帆;周莲英;: "基于会话记录的Word2Vec音乐推荐算法研究" * |
张华伟;: "基于Word2Vec的神经网络协同推荐模型" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753214A (zh) * | 2020-06-24 | 2020-10-09 | 平安科技(深圳)有限公司 | 基于行为轨迹的数据推送方法、系统和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110781342B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108821A (zh) | 模型训练方法及装置 | |
CN108280155B (zh) | 基于短视频的问题检索反馈方法、装置及其设备 | |
CN110442790A (zh) | 推荐多媒体数据的方法、装置、服务器和存储介质 | |
CN103914548B (zh) | 信息搜索方法和装置 | |
CN107885745B (zh) | 一种歌曲推荐方法及装置 | |
CN109240637B (zh) | 音量调节的处理方法、装置、设备及存储介质 | |
CN106228188A (zh) | 聚类方法、装置及电子设备 | |
CN105512156B (zh) | 点击模型生成方法和装置 | |
CN107729578B (zh) | 一种音乐推荐方法及装置 | |
CN111274378B (zh) | 用于问答的数据处理方法以及装置、设备、存储介质 | |
CN113283238B (zh) | 文本数据处理的方法和装置、电子设备和存储介质 | |
CN102023986A (zh) | 参考外部知识构建文本分类器的方法和设备 | |
CN111951070B (zh) | 基于车联网的智能推荐方法、装置、服务器及存储介质 | |
CN105718543A (zh) | 语句的展示方法和装置 | |
CN109859747B (zh) | 语音交互方法、设备以及存储介质 | |
CN110781341A (zh) | 一种融合多策略召回数据集的音频专辑推荐方法及系统 | |
Song et al. | Scaphopoda is the sister taxon to Bivalvia: Evidence of ancient incomplete lineage sorting | |
CN110781342B (zh) | 一种基于用户行为序列和数据融合的推荐系统召回方法及系统 | |
CN107147947A (zh) | 关键帧识别方法及装置 | |
CN112148942A (zh) | 基于数据聚类的业务指标数据分类方法及装置 | |
CN106101831A (zh) | 视频向量化方法及装置 | |
CN111429200B (zh) | 一种内容关联方法及装置、存储介质、计算机设备 | |
CN106503064B (zh) | 一种自适应微博话题摘要的生成方法 | |
CN109933741B (zh) | 用户网络行为特征提取方法、装置及存储介质 | |
CN108920484B (zh) | 搜索内容处理方法、装置及存储设备、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |