CN107886132A - 一种求解音乐流量预测的时间序列分解方法及系统 - Google Patents
一种求解音乐流量预测的时间序列分解方法及系统 Download PDFInfo
- Publication number
- CN107886132A CN107886132A CN201711189706.7A CN201711189706A CN107886132A CN 107886132 A CN107886132 A CN 107886132A CN 201711189706 A CN201711189706 A CN 201711189706A CN 107886132 A CN107886132 A CN 107886132A
- Authority
- CN
- China
- Prior art keywords
- music
- artist
- data
- model
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于音乐预测模型技术领域,公开了一种求解音乐流量预测的时间序列分解方法及系统,对音乐歌曲用户进行模型构建,使用基于加权模糊内核聚类模型进行音乐歌曲用户聚类操作;通过基于用户聚类获得的与艺人数据集进行音乐歌曲流量预测模型的构建,使用基于可行系数空间分割的算法进行预测;对音乐播放流量预测模型中的艺人歌曲流量预测的效率和准确率进行验证。本发明帮助播放器生产商合理安排播放器后台以及适宜的网络带宽,从而能有效降低宕机的发生概率,同时通过对音乐用户的整体分类,和对音乐歌曲的分类预测的方法的研究提高了播放器生产商对音乐流量的发展趋势的分析;预测所产生的结果,为企业减少了损失。
Description
技术领域
本发明属于音乐预测模型技术领域,尤其涉及一种求解音乐流量预测的时间序列分解方法及系统。
背景技术
近年来,随着流量预测的精度的提高,流量预测中的音乐歌曲流量预测也变的越来越多重要。音乐歌曲作为音乐歌曲流量预测的核心基础更是得到众多的研究学者的重视和探索,其中主要是针对音乐曲风识别和听众听取歌曲识别两个问题。目前已有很多学者和相关专家提出了一些相对应的解决方案,但是至今为止依然存在很多问题需要解决。
2016年,中国现有在统计的数字媒体音乐的市场规模高达600亿元。此中PC端音乐歌曲领域的规模为80亿元,同比增加13.4%;手机等移动端音乐歌曲市场领域为100亿元,同比增进40%;电信系统的所有业务中的音乐部分增值为450亿元,同比稍有增长减缓迹象。网络在线试听歌曲用户使用人次高达5.01亿,同比上期增长10%。随着国内音乐大环境的不断提升,整体技术水平的持续改进,音乐的个性化服务不断涌现,至使手机移动数字音乐歌曲播放市场呈现井喷式的高速增长,音乐歌曲的数字市场的影响力也在不断扩大。
伴随着音乐歌曲的增加,在推动新媒体等娱乐经济的发展的同时,也加大了音乐选择的难度,对用户的困扰更加严重。目前,国内以酷狗音乐、QQ音乐、网易云音乐等主流音乐播放器选择音乐播放难度与音乐歌曲播放流量预测最为困难。这些播放器均承载着全球大量用户的同时在线压力。音乐歌曲播放量的不断提升,无疑对各播放器的负载能力提出了巨大的挑战[3],同时音乐歌曲播放流量预测的准确性缺失导致的服务器的超负荷运转,成为各大播放器供应商的杀手锏。由此带来的客户丢失等情况,不但给音乐创作人造成不便,同时也大大降低了各音乐播放器厂商的收益。因此,为确保音乐制作人及时的可靠的被大众收听,有必要加强各歌曲的流量预测准确度,提高音乐流量预测的水平。
近年来,随着经济的发展和社会的进步,世界各国中音乐创作迅速增长,形形色色的音乐创作人为本发明提供丰富多彩的音乐创作的同时给个大音乐平台带来了推荐、流量预测等一系列的问题,这使得各大音乐平台无法精确定位音乐输出流量,而如何在大量的信息世界中预测下一阶段的流量称为一个越来越重要的课题。在当今信息量剧增的时期,要处理迅猛增长的海量信息,仅靠人工已经变得不太现实。
传统意义上的基于时间序列的音乐播放量预测方法是可行的,但是对于更加准确的预测确实有着不少的欠缺。加权模糊聚类算法能过准确的根据用户喜好进行基于音乐歌曲收听类型的分类,而可行系数空间算法则可以动态的获取最优时间间隔,同时对流量误差进行纠正,最终预测出每个艺人的音乐流量。音乐流量的预测不仅仅可以为各音乐播放器厂商提供流量预期,同时也为音乐歌曲播放流量的高层决策者展现出有效的的音乐播放流量基础数据,为音乐歌曲播放流量的健康管理提供了基础。
综上所述,现有技术存在的问题是:
现有预测中,求解艺人歌曲流量预测准确性中,因为数据波动幅度过大而导致的预测偏差大;因为用户喜好不同而造成的前期数据分类预测艰难。
发明内容
针对现有技术存在的问题,本发明提供了一种求解音乐流量预测的时间序列分解方法及系统。
本发明是这样实现的,
一种求解音乐流量预测的时间序列分解方法,所述求解音乐流量预测的时间序列分解方法包括:
首先对音乐歌曲用户进行模型构建,使用基于加权模糊内核聚类模型进行音乐歌曲用户聚类操作;
其次,通过基于用户聚类获得的与艺人数据集进行音乐歌曲流量预测模型的构建,使用基于可行系数空间分割的算法进行预测;
最后通过实验分析,对音乐播放流量预测模型中的艺人歌曲流量预测的效率和准确率进行验证。
进一步,加权模糊内核聚类模型为:
其中C为聚类数量,vi=(vi1,vi2,...,vil)是第i个聚类中心,uij表示第j个模式属于第i 个聚类,wik表示第i个聚类的第k个特征的权重因子,为用户自定义的梅尔核函数。
所述通过基于用户聚类获得的与艺人数据集进行音乐歌曲流量预测模型的构建,使用基于可行系数空间分割的算法进行预测,包括:
通过加权模糊核聚类模型进行用户群聚类分组,并通过多阶可行系数空间模型进行音乐播放流量预测,最终将加权模糊核聚类模型与多阶可行系数空间模型结合进行音乐播放流量预测;具体包括:
步骤1)、初始化:数据集中包括用户数据和艺人两方面数据,首要初始化用户数据;
步骤2)、设置初始值:t=1,Vi=(vi1,vi2,...,viL);
设置JWFCKA(t-1)=ζ,其中,ζ是一个常数;
步骤3)、分别计算获得uij(t),vi(t),wik(t)(1≤i≤C,1≤k≤L);
步骤4)、跳转到步骤2)计算获得JWFCKA(t);
步骤5)、如果|JWFKCA(t)-JWFKCA(t-1)|<ε,ε是预先定义的一个小的常数;停止否则继续t←t+1,进行步骤2)操作;
步骤6)、跳转步骤5)最终获得聚类数据集合;
步骤7)、统计不同类别中不同艺人歌曲流量;
步骤8)、通过步骤6)和7)预测的听歌用户聚类之后的数据集以及统计信息作为m维多边形h的输入;
pstart:表示开始数据点;
pnext:表示下一个数据点;
δ:最大错误边界;
步骤9)、使用艺人流量分别对pstart和pnext构造(m-1)维多边形和
步骤10)、对每一个(m-1)维的新曲面进行循环,根据相交点信息计算(m-2)维的面,切除比更低的部分以及切除比更低的部分;
步骤11)、最终返回结果。
进一步,所述通过基于用户聚类获得的与艺人数据集进行音乐歌曲流量预测模型的构建,使用基于可行系数空间分割的算法进行预测,还包括:
使用卷积神经网络进行用户群分类,通过使用Adaboost提升算法来进行分类器的选择,进而形成一个基于AdaBoost和卷积神经网络的组合用户分类算法;并通过可行系数空间分割的音乐流量预测模型进行进一步组合,最终建成一个基于AdaBoost和卷积神经网络以及可行系数空间分割的音乐流量预测算法;具体包括:
步骤一)、初始化:数据集中包括用户数据和艺人两方面数据,首要初始化用户数据;
步骤二)、通过输入的用户数据,进行矩阵构建;
步骤三)、使用CNN对训练集进行训练;
步骤四)、使用AdaBoost选择最优分类器;
步骤五)、使用测试集来对分类模型进行分类;
步骤六)、使用预测集对该分类器进行交叉验证;
步骤七)、如果验证结果满意,则进行最终用户分类,否则跳转至步骤二);
步骤八)、统计不同类别中不同艺人歌曲流量;
步骤九)、通过步骤六)和步骤七)预测的听歌用户聚类之后的数据集以及统计信息作为m维多边形h的输入;
pstart:表示开始数据点;
pnext:表示下一个数据点;
δ:最大错误边界;
步骤十)、使用艺人流量分别对pstart和pnext构造(m-1)维多边形和
步骤十一)、对每一个(m-1)维的新曲面进行循环,根据相交点信息计算(m-2)维的面,切除比更低的部分以及切除比更低的部分;
步骤十二)、最终返回结果。
进一步,所述对音乐播放流量预测模型中的艺人歌曲流量预测的效率和准确率进行验证中,包括:评估指标公式
其中Tij为艺人j在第k天的实际播放量,W为艺人集合,Sjk音乐播放流量预测模型计算获得艺人j在第k天的播放量,δij则为音乐播放流量预测模型对艺人j的播放预测和实际方差的归一化方程
而艺人j所在的权重由数据集中艺人所有歌曲的流量的平方根获得;公式如下:
最终预测的F值:
Fi=∑j∈w(1-δij)·φj。
本发明的另一目的在于提供一种求解音乐流量预测的时间序列分解系统。
本发明的优点及积极效果为:
本发明有效地结合了加权模糊核算法与可行系数空间算法;将基于编码的可行系数空间算法应用到音乐歌曲播放流量预测的求解;提高了音乐播放流量预测模型中的艺人歌曲流量预测的效率和准确率。
本发明通过对音乐歌曲播放流量驱动的特征的介绍,详细说明了能够影响音乐歌曲播放流量的各种因素,从而理清了音乐播放流量变化的始末,为接下来音乐播放流量的模型探索提供了基本保障。
通过对歌曲创作人、歌曲听众对音乐歌曲播放流量影响的研究,本发明确定了音乐歌曲播放流量预测方法,建立了歌曲创作、听众活动为一体的音乐歌曲流量预测体系。
本发明通过对音乐歌曲流量特点的研究,实现了音乐歌曲播放流量预测理论与企业流量管理的有效结合。
本发明帮助播放器生产商合理安排播放器后台以及适宜的网络带宽,从而能有效降低宕机的发生概率。同时通过对音乐用户的整体分类,和对音乐歌曲的分类预测的方法的研究,能提高播放器生产商对音乐流量的发展趋势的分析。最终,通过音乐流量预测所产生的结果,来为企业减少损失。
本发明帮助企业合理利用带宽。对歌曲播放流量的精确预测能够在一定程度上为企业资产应用提供基于音乐歌曲播放流量的定向音乐版权购买、音乐艺人投资,充分利用歌曲播放流量的预测作用。
本发明有利于督促各音乐平台的继续健康稳步发展。音乐歌曲播放的流量是维持音乐平台企业稳步成长的不可或缺的因素,本发明依据音乐歌曲播放流量的特征,详细说明了能够影响音乐歌曲播放流量的各种因素,从而理清了音乐播放流量变化的始末,为接下来音乐播放流量的算法探索提供了基本保障。
附图说明
图1是本发明实施例提供的求解音乐流量预测的时间序列分解方法流程图。
图2是本发明实施例提供的基于加权模糊核的用户聚类模型流程图。
图3是本发明实施例提供的卷积神经网络模型图。
图4是本发明实施例提供的可行空间用例图。
图5是本发明实施例提供的二阶可行空间示例图。
图6是本发明实施例提供的基于多阶可行系数空间的音乐流量预测模型的流程图。
图7是本发明实施例提供的求解音乐流量预测的时间序列分解系统的整体框架图。
图8是本发明实施例提供的求解音乐流量预测的时间序列分解方法组合方法流程图。
图9是本发明实施例提供的卷积神经网络与AdaBoost组合模型结构图。
图10是本发明实施例提供的基于AdaBoost的卷积神经网络的可行系数空间模型图。
图11是本发明实施例提供的艺人歌曲播放流量分布图。
图12是本发明实施例提供的加权模糊内核聚类算法的分类效果好于基于卷积神经网络的分类算法图。
图13是本发明实施例提供的在同一迭代次数的情况下,对各阶进行总体预测结果的汇总图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明即从音乐歌曲与播放流量着眼,预测音乐歌曲被收听的流量,以加权模糊内核聚类的用户聚类算法为基础,通过可行系数空间算法的错误边界预测的方法来实现音乐歌曲播放流量的预测,最终将两者融合形成一个优良的音乐流量预测算法。同时使用了基于 AdaBoost的卷积神经网络的用户分类模型,并通过可行系数空间的错误边界预测方法同样实现了音乐流量预测模型。
利用时间序列可操作性和收敛性,以及联合加权模糊核聚类算法在不同时间段内形成编码的方法,提出了聚类情况下的基于时间段编码的时间序列方法,包括单首歌曲时间段编码策略、基于编码的听众聚类策略等。该方法设计求解了艺人歌曲流量预测问题,并针对音乐歌曲流量进行了模型构建。
下面结合附图对本发明的应用原理作详细描述。
如图1所示,本发明实施例提供的求解音乐流量预测的时间序列分解方法,包括:
S101:首先对音乐歌曲用户进行模型构建,即使用基于加权模糊内核聚类模型进行音乐歌曲用户聚类操作,通过聚类算法来解决因为用户喜好不同而造成的前期数据分类预测难题。
S102:其次,通过基于用户聚类获得的与艺人数据集进行音乐歌曲流量预测模型的构建,使用基于可行系数空间分割的算法进行预测,使用可行系数空间分割算法很好的解决了因为数据波动幅度过大而导致的预测偏差问题。
S103:最后通过实验分析,对方法的性能及效率进行了有效验证。
下面结合具体实施例对本发明的应用原理作进一步描述。
1.基于音乐歌曲流量组合模型
1.1基于加权模糊核的用户聚类模型
1.1.1加权模糊内核聚类模型
在分类任务中,通常使用该方法来对线性不可分的数据进行区分。在本发明中,使用高斯核函数来进行聚类研究。聚类是将一个数据集合划分为多个子集的模型。聚类操作对于高维数据有更优的处理能力,对降低高纬数据有一定的优势。
一个传统的聚类模型有两个主要的子空间聚类模型,分别为硬子空间聚类(Hardsubspace clustering,HSC)和软子空间聚类(Soft subspace clustering,SSC),相对于硬子空间,在软子空间的一个数据可能属于有一些不同维度成员组中。子空间聚类属于每个权重维度以测量数据之间的相似性以获得特定的集群。
加权模糊聚类模型是一种新型的模糊分类器,特征空间中的特征模型和附加属性重量产生。而本发明节正是使用该模型进行音乐歌曲用户进行分类的。现已证明,在观察对于“球形”集群而言,空间将是有效的无法获得令人满意的聚类结果。
假设是一个非线性映射函数并且p∈os是一个观察空间中的元素,HS表示高纬映射空间。对于加权模糊聚类模型的目的在于最小化接下来的目标函数:
且
uij∈[0,1],且1≤j≤N (3-2)
wij∈[0,1],且1≤i≤C (3-3)
这里需要指出:C为聚类数量,vi=(vi1,vi2,...,viL)是第i个聚类中心,uij表示第j个模式属于第i个聚类,wik表示第i个聚类的第k个特征的权重因子,m>1,β>1。
通过(1)中,可以发现:
这里是用户定义的梅尔核函数。它能够用来表示一个点的高纬空间。如果本发明使用通用高斯核函数,那么k(x,x)=1。因此可以把(3-4)简化的表示为:
为了最小化(3-5)中的vik,本发明需要
为了处理(3-6),本发明接下来需要处理:
对于wik而言需要有两个依赖分别为:
如果wik=0,那么第k个属性与第i个簇是不相关的。
如果wik≠0,那么本发明有:
因此可以获得
最终得到:
1.1.2基于加权模糊核的用户聚类模型
对于音乐用户数据集合而言,包括歌曲id、歌曲播放时间、用户行为(下载、播放、收藏),以及该记录收集时间,本发明的主要目的在于使用加权模糊核聚类模型来进行用户群体聚类模型的构建。因此需要接入音乐相关数据,这些数据包括:歌曲id、歌曲发行时间、歌曲语言类型、团队类型等信息。
基于加权模糊核的用户聚类模型流程如图2。
1.2基于卷积神经网络的用户分类模型:
1.2.1激活函数:
在模型的构建过程中,经常遇到非线性数据而导致模型无法进行有效处理,因此激活函数应运而生。
所谓激活函数:就是一个函数,能够将非线性不可分的数据转化为线性可分的数据的处理过程。对于激活函数可以分为如下几种。
(1)线性激活函数:
f(x)=k·x+c (3-12)
(2)斜面激活函数:
(3)阈值激活函数:
(4)S型激活函数
(5)双极S型激活函数
(6)双曲正切激活函数
(7)maxout激活函数
hi(x)=maxj∈[1,k]zij zij=xTW...ij+bij且
1.2.2卷积神经网络介绍
卷积神经网络主要是有卷积层和采样层组成。通常卷积层中散布着次采样层来减少计算时间并逐渐建立起更有加深入的空间。
(1)卷积层
在一个卷积层中,前一层的特征映射到学习核中并通过激活函数来形成输出特征映射。每个输出映射可能组合多个输入映射的卷积,通常有:
其中,这里Mj表示输入映射的一个选择,k代表卷积核,l表示卷积层,b表示偏移量。
(2)次采样层
一个次采样层产生多个输入映射缩减像素的采样版本。如果这里有N个输入映射,那么它将扩展出N个输出映射,尽管输入映射非常小。形成共识如下:
其中,down(*)表示一个次采样函数。通常这个函数会对输入中的每个不同的n到n的块进行求和,使得输出的图像是比两者都小的空间图像。每个输出映射由自己的偏移量β和一个额外偏移量b相乘获得。
卷积神经网络不仅仅可以用在压缩提取上,而且还可以用在数据分类上。在接下来的小节中,将会探讨如何使用卷积神经网络进行音乐歌曲用户数据分类。
1.2.3基于卷积神经网络的用户分类模型
本发明通过使用现有的音乐歌曲用户进行基于卷积神经网络的用户分类模型进行用户分组操作。
根据目前的音乐歌曲用户数据其中包括歌曲id、歌曲播放时间、用户行为(下载、播放、收藏),以及该记录收集时间,本发明的主要目的在于使用卷积神经网络模型的用户分类模型的构建。因此需要加入相关音乐数据其中包括:歌曲id、歌曲发行时间、歌曲语言类型、团队类型等信息。
使用卷积神经网络进行用户分类模型的构建,本模型有4层网络,分别为一层输入层,一层输出层和两层隐含层,改模型如图3所示。
1.3基于可行系数空间的分割预测错误边界模型
1.3.1可行空间窗口
FSW模型可以通过在每个数据点上找到每个段的最远分段点与每个数据点的误差约束保证这一概念被称为可行空间(Feasible Space,FS)。可行空间是在现有数据集合中的一个空间的一个时间序列。
通过图4展示了一个可行空间的一个用例。假设错误边界为δ,p0是一个时间序列数据开始点。当读第二个数据点p1(x1,y1),可以看出y的估计x1必须在点p1和之间,因此任何线在u1和l1之间都满足对于p1的错误边界需求,在这两条线之间的区域就是p1的可行空间。
1.3.2可行系数空间模型
可行空间是在时间序列近似中确定契约的一个有趣的想法。但是对于将可行空间窗 (Feasible SpaceWindow,FSW)模型应用到非线性函数中使极具挑战性的。可行空间窗模型的思想是使用一个开始数据点和下一个点来决定近似空间的界限。然而大部分非线性函数不能仅仅由两个点来决定。本发明通过使用高阶多项式可行系数空间模型来解决这一问题。
(1)可行系数空间(Feasible coefficient space,FCS)模型
可行系数空间模型的目的在于表述一种改变:代替可行空间窗模型发现有效空间这一步骤。本发明使用两个数据点获得关于函数的有效阶数。随着不断计算,本发明能过获取一个有效的集合被叫做可行系数空间(Feasible coefficient space,FCS)。
给出一个时间序列P,一个当前错误边界δ和一个候选函数fj(x)。重新看可行系数空间模型如下:当下一个点pnext到达时,本发明得出两个是基于pnext,pstart和δ来决定可行系数空间函数的两个边界的不等式。接下来,当本发明读入下一个P点时则会用新形成的可行系数空间函数来去掉已经存在的可行系数空间函数。可行系数空间模型是递增的,数据点连续不断的到达,最终在数据点pe处变为空,这也就意味着不能在接下来给出的数据点出通过候选函数给出每个数据点的错误边界。
因此,为了解决这一问题,在本发明接下来的内容中主要是来进行处理这一问题,从而能过行之有效的应用到音乐歌曲流量的预测中。
1.3.3二阶可行系数空间模型
在这一小节中,本发明会使用二项式函数来对可行系数空间模型进行描述。一个二项式函数在公式(3-21)中,其中a,b和c都是系数
y=ax2+bx+c (3-21)
作为问题的定义,第一个数据点p0(x0,y0)对于时间序列来说是一个近似曲线。因此可以得到
当第二个数据点p1(x1,y1)到达时,如果本发明通过二次函数估计这个点,那么y1的估计值为:
结合(3-22)和(3-23)获得
因此本发明需要每个数据点的错误边界不能直接用用户的δ来表达,必须是在[y1-δ,y1+δ]内部。因此,有了接下来的不等式:
使用上述不等式,本发明可以系数分别是a和b的二维可行系数空间。如图5所示。
1.3.4多阶可行系数空间模型
本发明中说表述的多阶是的阶数是m≥3,首先本发明考虑m=3的案例。三阶多项式函数叫做立方函数,公式如等式(3-27):
y=ax3+bx2+cx+d (3-27)
与平方函数相似,本发明使用开始数据点p0(x0,y0)和接下来的第二个数据点 p1(x1,y1)来获得一对等式如下:
结合(3-28)和(3-29),可以获得
同样对于问题定义,本发明需要如平方函数类似的处理:
在这里本发明使用(3-31)和(3-32)采用3维可行数据空间模型进行分割,最终得到的切割图形为三维多边形。因此以此类推高阶可行数据空间模型可以形成如下公式:
y=amxm+am-1xm-1+...+a1x+a0 (3-33)
FCS的不等式如下:
1.3.5基于多阶可行系数空间的音乐流量预测模型
本发明主要在于介绍使用提及的多阶可行系数空间模型与基于加权模糊核聚类模型生成的用户分类数据以及艺人数据来进行预测的基于多想可行系数空间的音乐流量预测模型的构建。
本模型需要的数据包括:基于加权模糊核聚类模型生成的用户细分类数据以及使用这些用户分类数据进行统计获得的统计结果数据、同时也需要音乐艺人数据、以及音乐歌曲播放时间等数据。
基于多阶可行系数空间的音乐流量预测模型的流程图如图6所示。
1.4
本发明,首先,针对用户分类困难问题设计了基于用户的加权模糊内核聚类模型,对音乐歌曲用户进行细粒度分组;之后,针对分类后的统计数据以及艺人数据预测困难问题设计了基于可行系数空间分割的音乐播放流量预测模型,对音乐歌曲播放流量进行预测。
2、算法设计实现
加权模糊核聚类下的可行系数空间分割的音乐播放流量预测算法即是加权模糊内核聚类算法与可行系数空间算法的混合算法,充分利用两者的优势互补产生新的流量预测算法。 Adaboost作为一种提升算法,结合卷积神经网络的分类能够更好的提取分类效果优越的分类器。本发明将就加权模糊内核聚类算法与可行系数空间算法以及Adaboost与卷积神经网络算法进行分析与设计。
2.1基于加权模糊核聚类和可行系数空间的音乐播放流量预测算法
本发明突破性的使用了加权模糊核聚类模型来进行用户群聚类,进而使用多阶可行系数空间分割预测错误率的方法来进行数据稳定性纠正。从物质的发展过程本发明可以了解到,事物的发展是共性与特性共存的,加权模糊核聚类模型和多阶可行系数空间分割算法也不例外。在真实的应用中也是存在着共性与特性的。由于领域不同进而导致了算法的某些特性也会随之改变,对于算法的要求也会千差万别。将加权模糊核聚类模型、多阶可行系数空间分割算法应用到音乐歌曲流量预测上同样需要有特性。为了满足音乐流量预测中的高效性和流量预测的准确性。如下为实现算法的策略和方法。
(1)用户群聚类
用户群聚类是整个音乐流量预测算法的核心操作,如果用户群聚类出现问题,那么对于后续的FCS分割以及流量的预测来说都是无意义的。本发明最终使用加权模糊核聚类模型作为音乐歌曲用户群聚类策略。
加权模糊聚类模型介绍如下:
1.使得t=1,初始化Vi=(vi1,vi2,...,viL)以及
设置JWFCKA(t-1)=ζ,这里ξ是一个常数。
2.通过(3-9)计算uij(t)。
3.根据(3-8)计算出vi(t)。
4.根据(3-11)计算wik(t)(1≤i≤C,1≤k≤L)。
5.通过步骤1获得JWFCKA(t)。
6.如果|JWFKCA(t)-JWFKCA(t-1)|<ε(ε是预先定义的一个很小的常数)那么模型停止,否则t←t+1,进行2操作,依次迭代直到结束。
(2)用户群聚类结果集统计
当用户群体分类结束之后,通过对分类之后的数据集统计每个类别中相对应的艺人按照时间进度进行统计的流量。这里的统计是为后续的多阶可行系数空间分割算法提供有效的数据支撑工作
(3)使用多阶可行系数空间分割模型进行数据纠错与预测
当统计结束之后,本发明使用多阶可行系数空间分割模型算法进行统计数据的流量纠错,此算法的目的在于降低使用时间序列进行算法预测时因为数据波动太大而造成预测偏差过大等情况的出现。
多阶可行系数空间分割模型介绍如下:
输入:h:当前m维多边形;
pstart:开始数据点;
pnext:下一个数据点;
δ最大错误边界
输出:ο:剩下的m维多边形,
根据不等式(14)和(15)通过pstart和pnext构造m-1维多边形和
如果h是空的:和形成的空间,
否则:FOR:h的每一个(m-1)维的面:
根据相交点信息计算(m-2)维的面,切除比更低的部分。
根据相交点信息计算(m-2)维的面,切除比更低的部分。
ο←h剩余的部分,
返回:ο。
本发明的整体框架如图7所示。
本发明的组合方法流程图8所示。
2.2基于加权模糊核聚类和可行系数空间的音乐播放流量预测算法过程
本发明通过加权模糊核聚类模型进行用户群聚类分组,并通过多阶可行系数空间模型进行音乐播放流量预测,最终将加权模糊核聚类模型与多阶可行系数空间模型合理有效的结合形成一个稳定有效的音乐播放流量预测算法。
本发明的整体算法如下:
1、初始化:因为数据集中包括了用户数据和艺人两方面数据,所以本步骤的首要目标在于初始化用户数据。
2、设置初始值:t=1,Vi=(vi1,vi2,...,viL);
设置JWFCKA(t-1)=ζ,这里ζ是一个常数。
3、分别计算获得uij(t),vi(t),wik(t)(1≤i≤C,1≤k≤L)
4、跳转到步骤2计算获得JWFCKA(t)。
5、如果|JWFKCA(t)-JWFKCA(t-1)|<ε
(ε是预先定义的一个小的常数)
那么算法停止否则继续t←t+1,进行第二步操作
6、跳转步骤5最终获得聚类数据集合
7、统计不同类别中不同艺人歌曲流量
8、通过步骤6和7预测的听歌用户聚类之后的数据集以及统计信息作为m维多边形h 的输入;
pstart:表示开始数据点;
pnext:表示下一个数据点;
δ:最大错误边界。
9、使用艺人流量分别对pstart和pnext构造(m-1)维多边形和
10、对每一个(m-1)维的新曲面进行循环,根据相交点信息计算(m-2)维的面,切除比更低的部分以及切除比更低的部分。
11、最终返回结果。
2.3基于AdaBoost的卷积神经网络及可行系数空间分割的音乐流量预测算法
本发明通过的使用了卷积神经网络来进行用户群分类,通过使用Adaboost提升算法来进行分类器的选择,进而形成一个基于AdaBoost和卷积神经网络的组合用户分类算法。并通过可行系数空间分割的音乐流量预测模型进行进一步组合,最终建成一个基于AdaBoost 和卷积神经网络以及可行系数空间分割的音乐流量预测算法。音乐数据不同,而导致的算法的预测效果也是千差万别的。将AdaBoost的卷积神经网络分类模型、多阶可行系数空间分割算法应用到音乐歌曲流量预测上同样需要进行组合。
AdaBoost是一个迭代模型,它的核心思想是通过样本数据来训练多个弱分类器,之后将这些弱分类器结合形成一个强分类器。它的权重分布是通过判断是否每个样本都被正确的分类以及通过最后的准确率来确定。权重采样通常被用在弱分类器形成之后。最后将所有分类器形成一个最终的分类器。
接下来使用CNN对训练的样本数据进行特征提取,使用AdaBoost模型来为每个特征矩阵生成一个弱分类器。之后为样本集计算分类错误率,依次迭代,获得最好的弱分类器。经过T个迭代之后,本发明获得T个弱分类器和组合他们最终的一个分类器。现在本发明放入本发明的测试数据到模型中。如图9。
获得已分类的用户数据之后与可行系数空间模型组合,形成基于AdaBoost的卷积神经网络的可行系数空间的音乐流量预测模型。如图10所示。
2.4基于AdaBoost的卷积神经网络及可行系数空间分割的音乐流量预测算法过程
本发明通过AdaBoost的卷积神经网络用户分类模型,并通过多阶可行系数空间模型进行音乐播放流量预测,最终将AdaBoost的卷积神经网络用户分类模型与多阶可行系数空间模型合理有效的结合形成一个稳定有效的音乐播放流量预测算法。
本发明的整体算法如下:
1、初始化:因为数据集中包括了用户数据和艺人两方面数据,所以本步骤的首要目标在于初始化用户数据。
2、通过输入的用户数据,进行矩阵构建。
3、使用CNN对训练集进行训练
4、使用AdaBoost选择最优分类器。
5、使用测试集来对现有分类模型进行分类
6、使用预测集对该分类器进行交叉验证。
7、如果验证结果比较满意,则进行最终用户分类,否则跳转至步骤2
8、统计不同类别中不同艺人歌曲流量
9、通过步骤6和7预测的听歌用户聚类之后的数据集以及统计信息作为m维多边形h 的输入;
pstart:表示开始数据点;
pnext:表示下一个数据点;
δ:最大错误边界。
10、使用艺人流量分别对pstart和pnext构造(m-1)维多边形和
11、对每一个(m-1)维的新曲面进行循环,根据相交点信息计算(m-2)维的面,切除比更低的部分以及切除比更低的部分。
12、最终返回结果。
2.5伪代码描述
本发明将加权模糊核聚类算法以及可行系数空间预测纠正流量算法进行了详细论述,接下来本发明则是通过伪代码的方式来对整个组合算法进行论述。伪代码作为人与计算机记性转换的一门独特的语言,使用特殊的问题和符号来描述整个算法,每一行代表一个操作,为了书写方便,它不需要使用各种图形以及奇形怪状的符号。
基于WFKCA的FCS预测音乐歌曲流量算法如下:
2.6
本发明根据加权模糊聚类算法在用户聚类方面的使用以及基于可行系数空间预测纠正错误分界的算法来制定的详细策略和真是算法使用流程。同时介绍了基于AdaBoost的卷积神经网络的可行系数空间算法的整体框架以及算法的使用流程。首先从算法特性上记性了描述,之后介绍了详细的设计路线,并给出了伪代码进行整个组合算法的过程描述。
3、预测及分析
3.1试验数据介绍
本发明数据皆来自某音乐厂商提供的真实音乐数据,其中包括用户行为数据和歌曲艺人数据两部分,其中歌曲艺人数据集中包括歌曲唯一标识、歌曲所属的艺人Id、歌曲发行时间、歌曲的初始播放数、语言以及歌曲类型(团队,男人,女人),而用户行为数据集中包括了用户唯一标识、歌曲唯一标识、用户播放时间、行为类型(播放、下载、收藏)、记录收集日等数据。
本数据集取自从2015年3月到2015年7月的音乐播放数据,用户行为数据集的数据总量有12亿条。而歌曲艺人数据集数据总条数为1000万条。
其中实验数据包括:
(1)音乐歌曲用户数据集。
表3-1用户数据对照表
(2)音乐歌曲艺人数据集。
表3-2歌曲艺人数据对照表
(3)音乐歌曲预测结果集。
表3-3预测数据对照表
列名 | 类型 | 说明 | 示例 |
artist_id | String | 歌曲所属的艺人Id | 023406156015ef87f99521f3b343f71f |
Plays | String | 艺人当天的播放数据 | 5000 |
Ds | String | 日期 | 20150901 |
3.2交叉验证设置
交叉验证的基本思想在于在对原始数据分组的基础上,一部分集合用于训练模型使用,另一部分则用于验证模型使用。使用交叉验证的主要目的在于:获得稳定可靠的预测模型。
目前现有音乐数据为12亿用户数据,以及1000万音乐艺人数据,在构建模型时,需要构建基于模型的训练数据集合、测试集合以及验证集合。文本分别使用7:3:1的方式进行训练集、测试集和验证集的划分
3.3据平台框架设计
本发明采用Hive及Hadoop在云平台上开发了本模型系统。程序良好的健壮性、可移植性、稳定性、扩展性及可靠性等是系统强大生命力的具体体现。基于web的云平台系统在界面可视化,人机交互操作方面有着无可比拟的优势。Hive和Hadoop是当前比较流行的大数据开发组件,使用了MapReduce的计算引擎为批量数据处理提供了良好的计算支撑,使用Hive的HQL大大的降低的开发能力高的要求。
1:HBase
是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,一个分布式的、面向列的开源数据库,主要用来存储交通厅的结构化数据和非结构化数据,为整个音乐歌曲播放流量预测平台提供数据支撑。
2:Hive
建立在Hadoop上的数据仓库基础构架。Hive为处理数据开发了一系列的较为实用的开源工具。可以对数据集进行数据转化,加工等操作,使用中建立在Hadoop之上的数据查询工具。主要实用hive来对音乐歌曲播放数据进行数据加工与分析。
3:Spark
启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载,同时spark自身包含了MLIB机器学习包,同时可以进行流计算。使用它的主要目的是为了提供音乐数据的信息挖掘的算法平台。
4:Zeppelin
Apache Zeppelin提供了于ipython发行的notebook相近似的web版工具,主要用来进行数据可视化操作。背后可以接入不同的数据处理引擎,包括spark,hive,tajo等,原生支持 scala,、java、shell、markdown等。它的整体展现和使用形式和Databricks Cloud是一样的,就是来自于当时的demo。Zeppelin就是为了支持音乐数据挖掘前期的数据可视化,减少 web开发成本。
5:Hadoop
Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。Hadoop主要是为了支撑Hive以及分析之后可能遇到的智能交通中对于大规模日志的分析。
6:CDH
调度平台ClouderaCDH是为简化Hadoop的安装。同时加强了对HBase、Hive、Spark的任务调度的分配,使用CDH的主要目的就是为了方便安装,同时强化对整个集群不同组件之间的任务分配问题。
通过对数据流向的整理,本项目把音乐歌曲播放数据分为多个层级。所以,以云平台为存储支撑,通过MapReduce计算模式进行数据整理,通过离线、在线的数据分析为各个业务系统提供支撑,开放接口,即可为社会各方提供大数据服务。
3.4估指标分析
设艺人j在第k天的实际播放量为Tij,艺人集合为W,模型需要计算获得艺人j在第k天的播放量为Sjk。则模型对艺人j的播放预测和实际方差归一化方程δij。
而艺人j所在的权重是由数据集中艺人所有歌曲的流量的平方根获得,公式如下:
最终预测的F值:
Fi=∑j∈w(1-δij)·φj
音乐歌曲播放流量的预测结果是通过结果的最终评分根据F值来进行计算得到的,根据上文中的计算公式可以看出F值是通过所有艺人的最终评分累加而获得,而对于艺人个体的分数则是通过归一化方差δ(sigma)和φ(phi)的乘积获取的。
通过当前艺人歌曲的真实统计的歌曲播放量进行累加之后进行开方得到φ,对于每个艺人而言,φ是一个由训练数据提供的每个艺人歌曲播放量的总和决定的。当特定艺人的所有歌曲播放量很高时,那么对应的φ值也是很大的,从而通过公式可以求的F值也随之增加。因此不难看出:在当前现有数据集合中,如果艺人歌曲的总播放量越大,预测越准,那么最终获得的评分也就随之提高。进一步确定了该评分标准的可行性和实用性。
从公式中不难看出,归一化方差δ是某艺人对应的预测总歌曲的日播放量减去实际日播放量,之后在对真实的日歌曲播放量进行求商并进行开方操作。归一化方差δ反应了艺人总歌曲播放量的预测结果与真实结果之间的差距。如果最终数值越小,那么说明预测算法的预测结果越准确,那么随之而来的F值也就越大。当最终数值超过艺人总歌曲的实际播放量时,那么δ>1,最终导致该艺人负评分,进而F值也会越来越小。通过对公式的分析不难看出,当预测结果中某些艺人的预测结果偏差过大时,会导致F评分值下降。因此,为了防止此类情况的发生,尽可能的保持平稳预测。
3.5验数据预测分析
3.5.1艺人播放流量分析
基于艺人在现有数据集中分布,对各个艺人数据进行统计汇总并使用箱形图进行展示。由图能过看出,单个艺人在现有数据集中每日的歌曲流量情况,并能过痛过附图从中识别出高波段、低波段以及一般播放量的艺人。通过衡量评分标准,如果将音乐播放量越多的艺人进行估计的流量越准,那么该艺人的预测分数则明显提高。所以,通过该图可以明确的一个目标就是对于高波段和低波段的艺人的播放流量进行关注。
3.5.2艺人歌曲语言分布分析
在数据集中存在艺人歌曲语言特性,故本发明解析来会对歌曲语言进行分析。在原有数据集中,歌曲语言分为多种,所有这里使用箱形图对歌曲语言进行统计汇总分析。
可以看出,4型语言的歌曲总量是最多的,同时可以看出2型语言的歌曲总量时最小的。
3.5.3艺人性别分布分析
在已有的艺人数据集中,存在艺人性别这一特性,本发明考虑到歌曲流量是否与艺人性别有关,故此使用箱形图刻画出歌曲中艺人性别的分布关系。
从图中不难看出,3类型的艺人的数量明显小于1和2类型的艺人的数量,这说明,歌曲中三分之二以上的歌曲都是独唱,只有小部分是团队演唱。
3.5.4艺人性别与歌曲语言分析
考虑到测评函数的特性即找到高播放量艺人,故此使用曲线图将性别与语言进行汇总统计分析来分辨高播放量艺人和普通艺人的边界。
如图中所示Language特征分别是1,4,11的总体艺人相应的数据分布的变化曲线,可以明显看出在Language为4,11时变化曲线有两个峰值,而Language为1的时候则仅有一个峰值,而且右侧伴随着数据下滑趋势。通过附图中的这些隐含信息,本发明把此类信息作为辨别艺人播放程度的边界。
3.5.5基于用户数据的总体艺人歌曲播放量分析
通过统计所有艺人最高播放量,使用折线图11刻画出艺人在两个月中的流量的变化情况。
由图11可以看出,艺人歌曲播放流量除去节假日之外基本呈现一个稳定的流量趋势。随之使用柱状图统计分析以一周7天为计算单位来刻画每个月的平均艺人歌曲流量情况。
周六周天的听歌量是明显低于周一到周五的,此图可以直观的刻画出听歌量与节假日是称负相关的。
在两个月的画中,周三,周四为听歌高峰,这里不难判断出由于大部分人听歌是用来放松的,也可以理解为人每周中周三、四这两天是最需要放松的时间,当人音乐的播放量也随之增加,但是在周日以及节假日则用于放松的活动有多种选择,因此歌曲的播放量反而呈下降的趋势。因此本文通过对工作日和节假日进行分离,明显可以看出,在七、八月底节假日的音乐播放量明显要比工作日的播放量要低很多。
3.6算法比较
本发明首先使用了加权模糊核聚类模型对用户群进行了聚类操作,为了确定本算法的有效性,使用现有数据,分别使用加权模糊核聚类模型和k-means聚类算法进行数据分类对比。
在同样数据集合的情况下,加权模糊核聚类算法的聚类效果明显优于k-means聚类模型的聚类效果。因此本发明选择使用加权模糊核聚类算法进行用户聚类操作。
使用加权模糊内核聚类算法与Adaboost和卷积神经网络分类算法进行分类比较,发现在同样的迭代次数和相同数据集的情况下,加权模糊内核聚类算法的分类效果明显要好于基于卷积神经网络的分类算法。结果对比图12所示。
从错误率和迭代次数的分布图中,可以清晰的看出随着迭代次数的增加,加权模糊核聚类算法的收敛效果明显优于卷及神经网络的分类效果。因此,本发明选择使用加权模糊内核聚类算法对用户数据集进行聚类操作。
本发明分别考虑了不同阶数的可行系数空间模型对最终的流量预测效果的影响,故此,分别刻画出1阶、2阶、3阶、4阶、5阶、6阶的MSE和迭代次数的对应关系。
并在同一迭代次数的情况下,对各阶进行总体预测结果的汇总,如图13所示。
通过图13看出,当阶数为4时,预测的错误率是最低的,因此,考虑到整体预测效果,本发明最终选择使用4阶可行系数空间的模型预测音乐流量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种求解音乐流量预测的时间序列分解方法,其特征在于,所述求解音乐流量预测的时间序列分解方法包括:
首先对音乐歌曲用户进行模型构建,使用基于加权模糊内核聚类模型进行音乐歌曲用户聚类操作;
其次,通过基于用户聚类获得的与艺人数据集进行音乐歌曲流量预测模型的构建,使用基于可行系数空间分割的算法进行预测;
最后通过实验分析,对音乐播放流量预测模型中的艺人歌曲流量预测的效率和准确率进行验证。
2.如权利要求1所述的求解音乐流量预测的时间序列分解方法,其特征在于,加权模糊内核聚类模型为:
<mrow>
<msub>
<mi>J</mi>
<mi>WFKCA</mi>
</msub>
<mo>=</mo>
<mn>2</mn>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>C</mi>
</munderover>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>L</mi>
</munderover>
<msubsup>
<mi>u</mi>
<mi>ij</mi>
<mi>m</mi>
</msubsup>
<msubsup>
<mi>w</mi>
<mi>ik</mi>
<mi>&beta;</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>k</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>ij</mi>
</msub>
<mo>,</mo>
<msub>
<mi>v</mi>
<mi>ik</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>)</mo>
</mrow>
<mo>-</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>C</mi>
</munderover>
<msub>
<mi>&lambda;</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>L</mi>
</munderover>
<msub>
<mi>w</mi>
<mi>ik</mi>
</msub>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
<mrow>
<msub>
<mi>u</mi>
<mi>ij</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mrow>
<mo>(</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>r</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>L</mi>
</munderover>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<msubsup>
<mi>u</mi>
<mi>ij</mi>
<mi>m</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>k</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>jk</mi>
</msub>
<mo>,</mo>
<msub>
<mi>v</mi>
<mi>ik</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<msubsup>
<mi>u</mi>
<mi>ij</mi>
<mi>m</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>k</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>jt</mi>
</msub>
<mo>,</mo>
<msub>
<mi>v</mi>
<mi>it</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mfrac>
<mn>1</mn>
<mrow>
<mi>&beta;</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</mfrac>
</mrow>
</mfrac>
</mrow>
其中C为聚类数量,vi=(vi1,vi2,...,vil)是第i个聚类中心,uij表示第j个模式属于第i个聚类,wik表示第i个聚类的第k个特征的权重因子,为用户自定义的梅尔核函数。
3.如权利要求1所述的求解音乐流量预测的时间序列分解方法,其特征在于,所述通过基于用户聚类获得的与艺人数据集进行音乐歌曲流量预测模型的构建,使用基于可行系数空间分割的算法进行预测,包括:
通过加权模糊核聚类模型进行用户群聚类分组,并通过多阶可行系数空间模型进行音乐播放流量预测,最终将加权模糊核聚类模型与多阶可行系数空间模型结合进行音乐播放流量预测;具体包括:
步骤1)、初始化:数据集中包括用户数据和艺人两方面数据,首要初始化用户数据;
步骤2)、设置初始值:t=1,Vi=(vi1,vi2,...,viL);
<mrow>
<msub>
<mi>w</mi>
<mi>jk</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>L</mi>
</mfrac>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>&le;</mo>
<mi>i</mi>
<mo>&le;</mo>
<mi>C</mi>
<mo>,</mo>
<mn>1</mn>
<mo>&le;</mo>
<mi>k</mi>
<mo>&le;</mo>
<mi>L</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
设置JWFCKA(t-1)=ζ,其中,ζ是一个常数;
步骤3)、分别计算获得uij(t),vi(t),wik(t)(1≤i≤C,1≤k≤L);
步骤4)、跳转到步骤2)计算获得JWFCKA(t);
步骤5)、如果|JWFKCA(t)-JWFKCA(t-1)|<ε,ε是预先定义的一个小的常数;
停止否则继续t←t+1,进行步骤2)操作;
步骤6)、跳转步骤5)最终获得聚类数据集合;
步骤7)、统计不同类别中不同艺人歌曲流量;
步骤8)、通过步骤6)和7)预测的听歌用户聚类之后的数据集以及统计信息作为m维多边形h的输入;
pstart:表示开始数据点;
pnext:表示下一个数据点;
δ:最大错误边界;
步骤9)、使用艺人流量分别对pstart和pnext构造(m-1)维多边形和
步骤10)、对每一个(m-1)维的新曲面进行循环,根据相交点信息计算(m-2)维的面,切除比更低的部分以及切除比更低的部分;
步骤11)、最终返回结果。
4.如权利要求1所述的求解音乐流量预测的时间序列分解方法,其特征在于,所述通过基于用户聚类获得的与艺人数据集进行音乐歌曲流量预测模型的构建,使用基于可行系数空间分割的算法进行预测,还包括:
使用卷积神经网络进行用户群分类,通过使用Adaboost提升算法来进行分类器的选择,进而形成一个基于AdaBoost和卷积神经网络的组合用户分类算法;并通过可行系数空间分割的音乐流量预测模型进行进一步组合,最终建成一个基于AdaBoost和卷积神经网络以及可行系数空间分割的音乐流量预测算法;具体包括:
步骤一)、初始化:数据集中包括用户数据和艺人两方面数据,首要初始化用户数据;
步骤二)、通过输入的用户数据,进行矩阵构建;
步骤三)、使用CNN对训练集进行训练;
步骤四)、使用AdaBoost选择最优分类器;
步骤五)、使用测试集来对分类模型进行分类;
步骤六)、使用预测集对该分类器进行交叉验证;
步骤七)、如果验证结果满意,则进行最终用户分类,否则跳转至步骤二);
步骤八)、统计不同类别中不同艺人歌曲流量;
步骤九)、通过步骤六)和步骤七)预测的听歌用户聚类之后的数据集以及统计信息作为m维多边形h的输入;
pstart:表示开始数据点;
pnext:表示下一个数据点;
δ:最大错误边界;
步骤十)、使用艺人流量分别对pstart和pnext构造(m-1)维多边形和
步骤十一)、对每一个(m-1)维的新曲面进行循环,根据相交点信息计算(m-2)维的面,切除比更低的部分以及切除比更低的部分;
步骤十二)、最终返回结果。
5.如权利要求1所述的求解音乐流量预测的时间序列分解方法,其特征在于,所述对音乐播放流量预测模型中的艺人歌曲流量预测的效率和准确率进行验证中,包括:评估指标分析公式为:
<mrow>
<msub>
<mi>&delta;</mi>
<mi>ij</mi>
</msub>
<mo>=</mo>
<msqrt>
<mfrac>
<mn>1</mn>
<mi>N</mi>
</mfrac>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>ijk</mi>
</msub>
<mo>-</mo>
<msub>
<mi>T</mi>
<mi>jk</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>/</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>T</mi>
<mi>jk</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</msqrt>
<mover>
</mover>
</mrow>
其中Tij为艺人j在第k天的实际播放量,W为艺人集合,Sjk音乐播放流量预测模型计算获得艺人j在第k天的播放量,δij则为音乐播放流量预测模型对艺人j的播放预测和实际方差的归一化方程。
而艺人j所在的权重由数据集中艺人所有歌曲的流量的平方根获得;公式如下:
<mrow>
<msub>
<mi>&phi;</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<msqrt>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>T</mi>
<mi>jk</mi>
</msub>
</msqrt>
<mo>;</mo>
</mrow>
最终预测的F值:
Fi=∑j∈w(1-δij)·φj。
6.一种如权利要求1所述求解音乐流量预测的时间序列分解方法的求解音乐流量预测的时间序列分解系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711189706.7A CN107886132B (zh) | 2017-11-24 | 2017-11-24 | 一种求解音乐流量预测的时间序列分解方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711189706.7A CN107886132B (zh) | 2017-11-24 | 2017-11-24 | 一种求解音乐流量预测的时间序列分解方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107886132A true CN107886132A (zh) | 2018-04-06 |
CN107886132B CN107886132B (zh) | 2021-07-16 |
Family
ID=61774869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711189706.7A Active CN107886132B (zh) | 2017-11-24 | 2017-11-24 | 一种求解音乐流量预测的时间序列分解方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107886132B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657712A (zh) * | 2018-12-11 | 2019-04-19 | 浙江工业大学 | 一种基于Spark改进的K-Means算法的电商餐饮数据分析方法 |
CN110084603A (zh) * | 2018-01-26 | 2019-08-02 | 阿里巴巴集团控股有限公司 | 训练欺诈交易检测模型的方法、检测方法以及对应装置 |
CN115086705A (zh) * | 2021-03-12 | 2022-09-20 | 北京字跳网络技术有限公司 | 一种资源预加载方法、装置、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137724A1 (en) * | 2009-12-09 | 2011-06-09 | Icelero Llc | Method, system and apparatus for advertisement delivery from electronic data storage devices |
CN103559709A (zh) * | 2013-11-04 | 2014-02-05 | 北京航空航天大学 | 一种用于plif火焰前锋提取的条件型水平集方法 |
CN105183878A (zh) * | 2015-09-22 | 2015-12-23 | 中国传媒大学 | 一种基于马尔科夫预测算法的音乐分类的推荐方法 |
-
2017
- 2017-11-24 CN CN201711189706.7A patent/CN107886132B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137724A1 (en) * | 2009-12-09 | 2011-06-09 | Icelero Llc | Method, system and apparatus for advertisement delivery from electronic data storage devices |
CN103559709A (zh) * | 2013-11-04 | 2014-02-05 | 北京航空航天大学 | 一种用于plif火焰前锋提取的条件型水平集方法 |
CN105183878A (zh) * | 2015-09-22 | 2015-12-23 | 中国传媒大学 | 一种基于马尔科夫预测算法的音乐分类的推荐方法 |
Non-Patent Citations (4)
Title |
---|
HONGBIN SHEN ET AL.: "Attribute weighted mercer kernel based fuzzy clustering algorithm for general non-spherical datasets", 《SOFT COMPUT》 * |
JIANZHONG QI ET AL.: "Indexable online time series segmentation with error bound guarantee", 《WORLD WIDE WEB》 * |
SAMSHARE: "D1-阿里音乐流行趋势预测竞赛数据清洗整合——纯python", 《微信公众号SAMSHARE》 * |
XIAONA SONG ET AL.: "The AdaBoost algorithm for vehicle detection based on CNN features", 《INTERNATIONAL CONFERENCE ON INTERNET MULTIMEDIA COMPUTING AND SERVICE》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084603A (zh) * | 2018-01-26 | 2019-08-02 | 阿里巴巴集团控股有限公司 | 训练欺诈交易检测模型的方法、检测方法以及对应装置 |
CN110084603B (zh) * | 2018-01-26 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 训练欺诈交易检测模型的方法、检测方法以及对应装置 |
CN109657712A (zh) * | 2018-12-11 | 2019-04-19 | 浙江工业大学 | 一种基于Spark改进的K-Means算法的电商餐饮数据分析方法 |
CN109657712B (zh) * | 2018-12-11 | 2021-06-18 | 浙江工业大学 | 一种基于Spark改进的K-Means算法的电商餐饮数据分析方法 |
CN115086705A (zh) * | 2021-03-12 | 2022-09-20 | 北京字跳网络技术有限公司 | 一种资源预加载方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107886132B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104239501B (zh) | 一种基于Spark的海量视频语义标注方法 | |
CN101315663B (zh) | 一种基于区域潜在语义特征的自然场景图像分类方法 | |
CN106407406B (zh) | 一种文本处理方法和系统 | |
CN110209869B (zh) | 一种音频文件推荐方法、装置和存储介质 | |
CN112765477B (zh) | 信息处理、信息推荐的方法和装置、电子设备和存储介质 | |
CN107886132B (zh) | 一种求解音乐流量预测的时间序列分解方法及系统 | |
CN101116073A (zh) | 信息处理设备、信息处理方法及程序 | |
CN110852047A (zh) | 一种文本配乐方法、装置、以及计算机存储介质 | |
CN110263982A (zh) | 广告点击率预估模型的优化方法和装置 | |
CN109948913A (zh) | 一种基于双层的xgboost算法的多源特征电力用户综合画像系统 | |
WO2019120007A1 (zh) | 用户性别预测方法、装置及电子设备 | |
CN109409529A (zh) | 一种事件认知分析方法、系统及存储介质 | |
CN108717445A (zh) | 一种基于历史数据的在线社交平台用户兴趣推荐方法 | |
CN113190696A (zh) | 一种用户筛选模型的训练、用户推送方法和相关装置 | |
CN110047463B (zh) | 一种语音合成方法、装置和电子设备 | |
CN110347934A (zh) | 一种文本数据过滤方法、装置及介质 | |
CN116151235A (zh) | 文章生成方法、文章生成模型训练方法及相关设备 | |
CN115129890A (zh) | 回馈数据图谱生成方法、生成设备、问答设备及冰箱 | |
CN110717100B (zh) | 基于高斯嵌入表示技术的上下文感知推荐方法 | |
JPH11143875A (ja) | 単語自動分類装置及び単語自動分類方法 | |
CN110659382B (zh) | 基于异构信息网络表示学习技术的混合音乐推荐方法 | |
CN114861004A (zh) | 一种社交事件检测方法、装置及系统 | |
CN109117436A (zh) | 基于主题模型的同义词自动发现方法及其系统 | |
CN112800270A (zh) | 基于音乐标签和时间信息的音乐推荐方法及系统 | |
CN114996435A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |