CN103914743A

CN103914743A - 一种基于自回归模型的在线连载内容流行度预测方法

Info

Publication number: CN103914743A
Application number: CN201410161457.0A
Authority: CN
Inventors: 常标; 祝恒书; 谭昶; 陈恩红; 刘淇; 熊辉
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2014-04-21
Filing date: 2014-04-21
Publication date: 2014-07-09
Anticipated expiration: 2034-04-21
Also published as: CN103914743B

Abstract

本发明涉及一种基于自回归模型的在线连载内容流行度预测方法，与现有技术相比解决了没有针对在线连载内容流行度预测方法的缺陷。本发明包括以下步骤：训练数据的获取，爬取在线连载内容的整体播放量趋势，解析整体播放量趋势页面的HTML源代码，解析每集播放量趋势页面的HTML源代码；流行度预测，利用自回归模型预测新连载内容的流行度。本发明可以实现针对在线连载内容的流行度预测，作为转移模型的衍生物，利用它的模型参数设计出一个新的评估连载内容质量的指标，对于内容推荐有重要意义。

Description

一种基于自回归模型的在线连载内容流行度预测方法

技术领域

本发明涉及在线连载内容流行度预测技术领域，具体来说是一种基于自回归模型的在线连载内容流行度预测方法。

背景技术

随着现代因特网的发展，在线分享内容成为了人们日常生活娱乐的重要部分。作为在线内容的一个重要组成形式，在线连载内容指的是那些包含很多集并持续定期更新的内容，如电视连续剧、综艺娱乐节目、动画片、连载小说等。越来越多的网络服务提供商或网站（如优酷、爱奇艺、腾讯视频、起点中文网、红袖添香等）直接向用户提供在线连载内容，并和其他来源（如电视台）保持在线同步。例如，优酷作为国内最大的视频网站，提供了许多地区或国家的电视剧、动画片、娱乐节目，并会同步或推迟一段时间更新。图1是根据优酷内部收录的电视剧信息绘制的上映第一周每集平均播放量趋势图，从图1可以明显看到电视剧播放量有着明显的增长趋势。

沿着这样的思路，一个很重要的需求是如何预测连载内容的流行度，它可以扩展更多的应用，如流行内容推荐、用户行为分析与理解、在线流量管理（缓存流行的内容，提升访问速度）等。

谷歌公布了一项重要研究成果——电影票房预测模型。该模型能够提前一个月预测电影上映首周的票房收入，准确度高达94%。谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联网的发展，人们越来越习惯于在网上搜索电影信息。据谷歌统计，从2011到2012年，电影相关的搜索量增长了56%。谷歌发现，电影相关的搜索量与票房收入之间存在很强的关联。实现提前一个月预测的关键在于：谷歌采用了一项新的指标——电影预告片的搜索量。谷歌发现，预告片的搜索量比起电影的直接搜索量而言，可以更好的预测首周票房表现。这一点不难理解，因为在电影放映前一个月的时候，人们往往更多地搜索预告片。然而仅使用预告片的搜索量仍然不够，因此谷歌的模型最终采用了三类指标：（1）电影预告片的搜索量；（2）同系列电影前几部的票房表现；（3）档期的季节性特征。其中每类指标又包含了多项类内指标。在获取到每部电影的这些指标后，谷歌构建了一个线性回归模型（linearregression model）模型，来建立这些指标和票房收入的关系。线性模型虽然简单，但已经达到了很高的准确度（94%）。简单且效果好，是我们在实际应用中一直追求的。

和电影、传统的用户产生内容不同，在线连载内容具有自己的特性：即流行度序列依赖性、上映时间依赖性以及不同步的上映频率。例如，对于电视剧，相邻集的剧情很关联，这样就有可能使它们的观众大部分一样，相邻集的播放量也会有相关性，而且在周末或假期上映的集的播放量一般比在工作日上映的集的播放量要多，同时电视剧又是隔一段时间（如一天、一周）更新几集。这样连载内容流行度的预测问题就成为了一个多序列预测问题。

时间序列预测问题有很多经典的模型。例如自回归模型（英语：Autoregressive model，简称AR模型），是统计上一种处理时间序列的方法，用同一变量例如x的之前各值，亦即x1至xt-1来预测本期xt的表现，并假设它们具有线性关系。因为这是从回归分析中的线性回归发展而来，只是不用x预测y，而是用x预测x（自己），所以叫做自回归。自回归模型被广泛运用在经济学、信息学、自然现象的预测上。向量自回归模型（英语：VectorAutoregression model，简称VAR模型）是一种常用的计量经济模型，由计量经济学家和宏观经济学家克里斯托弗·西姆斯（英语：Christopher Sims）提出。它扩充了只能使用一个变量的自回归模型（简称：AR模型），使容纳大于1个变量，因此经常用在多变量时间序列模型的分析上。VAR模型描述在同一样本期间内的n个变量（内生变量）可以作为它们过去值的线性函数。自回归滑动平均模型（英语：Autoregressive moving average model，简称：ARMA模型），是研究时间序列的重要方法，由自回归模型（简称AR模型）与滑动平均模型（简称MA模型）为基础“混合”构成。在市场研究中常用于长期追踪资料的研究，如：Panel研究中，用于消费行为模式变迁研究；在零售研究中，用于具有季节变动特征的销售量、市场规模的预测等。ARIMA模型（英语：AutoregressiveIntegrated Moving Average model），差分整合移动平均自回归模型，又称整合移动平均自回归模型（移动也可称作滑动），时间序列预测分析方法之一。ARIMA（p，d，q）中，AR是"自回归"，p为自回归项数；MA为"滑动平均"，q为滑动平均项数，d为使之成为平稳序列所做的差分次数（阶数）。

但是，由于连载内容每集有不同的上映时间，上述时间序列预测模型不能有效的解决连载内容流行度的预测问题。因此如何开发出一种针对在线连载内容的流行度预测方法已经成为急需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中没有针对在线连载内容流行度预测方法的缺陷，提供一种基于自回归模型的在线连载内容流行度预测方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于自回归模型的在线连载内容流行度预测方法，包括以下步骤：

训练数据的获取，爬取在线连载内容的整体播放量趋势，解析整体播放量趋势页面的HTML源代码，解析每集播放量趋势页面的HTML源代码；

流行度预测，利用自回归模型预测新连载内容的流行度。

所述的流行度预测利用朴素自回归模型进行新连载内容流行度的预测，朴素自回归模型公式如下：

v_{i, j}^{(n)} = ω_{0} + ω_{1} v_{i - 1, j}^{(n)} + . . . + ω_{r} v_{i - r, j}^{(n)} = w^{T} V;

其中w＝(ω₀，ω₁，...，ωr)^T，r为模型的秩。

所述的朴素自回归模型中模型参数的学习包括以下步骤：

定义共享参数，给定连载内容集合S和它们的流行度记录

E＝(E¹·E²，...，E^|S|}，则其中为连载内容n第i集的流行度记录；

利用最小化平均相对平方误差来学习共享参数，其公式如下：

\arg \min_{w} {L (w) = \frac{1}{| E |} \underset{E^{n} &Element; E}{Σ} {(\frac{w^{T} V}{v_{i, j}^{(n)}} - 1)}^{2}},

其中为流行度真实值。

所述的朴素自回归模型中模型参数的学习的方法如下：

定义私有参数，加入惩罚项，其公式如下：

\arg \min_{w} {L (w) = \frac{1}{| E^{n} |} \underset{v_{i, j}^{(n)} &Element; E^{n}}{Σ} {(\frac{w^{T} V}{v_{i, j}^{(n)}} - 1)}^{2} + λ {| w |}^{2}}

其中||w||²＝w^Tw＝ω₀ ²+ω₁ ²+...+ω_r ²，λ为超参。

所述的流行度预测利用转移模型进行新连载内容流行度的预测，包括以下步骤：

定义变量，定义连载内容为n，第i集在第j个相对时间间隔的流行度为V_ij,来自追剧者的浏览量为a_ij，来自新增者的浏览量为b_ij，

第i集第j个相对时间间隔的追剧者在第k个相对时间间隔观看第i+1集的概率为p_ijk，其中k>=j，

第i集第j个相对时间间隔的追剧者在第k(k>=j)个相对时间间隔观看第i+1集的概率为q_ijk，其中k>=j，

当i=0时，则

a_{1 j} = 0, {&ForAll;}_{j} &GreaterEqual; 1;

转移模型的公式如下：

\hat{v_{ij}} = a_{ij} + b_{ij},

其中

a_{ij} = Σ_{k = 1}^{j} (a_{i - 1, k} \cdot p_{i - 1, k, j}) + Σ_{k = 1}^{j} (b_{i - 1, k} \cdot q_{i - 1, k, j}),

Σ_{k = j}^{\infty} p_{ijk} = 1, Σ_{k = j}^{\infty} q_{ijk} = 1,

对于任意的i、j、k，则

p_ijk＝p_i,jj+1,k+1

q_ijk＝q_i,j+1,k+1；

求解b_ij，去除新增者随着新集的上映在流失数，b_ij随着i的增加而有减少的趋势，故

b_ij＝b₀j exp^-αi

其中α是衰减因子，b_0j为在第j个相对时间间隔时连载内容的初始关注度。

根据α和b_0j修改转移模型的公式，如下：

\hat{v_{ij}} = f (b_{0}, α, p, q)

其中b₀＝(b₀₁，...，b_0j),p＝(p₁₁₁，p₁₁₂，...p_i-1,jj)。

利用单链转移模型进行新连载内容流行度的预测，包括以下步骤：

指定q_ij单链转移到_qi+1,j,其公式如下：

a_ij＝a_i-1,j·p_i-1,j+b_i-1,j·q_i-1，j；

单链转移模型的公式如下：

\begin{matrix} \hat{v_{ij}} = a_{ij} + b_{ij} \\ = a_{i - 1, j} \cdot p_{i - 1, j} + b_{i - 1, j} \cdot q_{i - 1, j} + b_{ij} = . . . \\ = Σ_{n = 1}^{i - 1} (b_{nj} q_{nj} Π_{k = n + 1}^{i - 1} p_{kj}) + b_{ij} \end{matrix};

利用最小化平均相对平方误差来进行模型参数的计算，其公式如下：

\min_{p_{ij}, q_{ij}, m, b_{0 j}} {L (p_{ij}, q_{ij}, m, b_{oj}) = \frac{1}{2 | C |} \underset{i &Element; C}{Σ} {(\frac{\hat{v_{ij}}}{v_{ij}} - 1)}^{2}}

subject to：0＜p_ij,q_ij,m≤1,

b_0j＞0,

其中m=exp^-α，为v_ij的预测值；

根据p_ij和q_ij的同步不变、同步增加、同步减少三种变化趋势优化单链转移模型；

通过网格搜索方法遍历p、q和m取值空间。

所述的当p_ij和q_ij的变化趋势为同步不变时，优化后单链转移模型如下：

\hat{v_{ij}} = \{\begin{matrix} q_{0 j} \cdot b_{0 j} \frac{({mp}_{0 j}^{i - 1} - m^{i})}{p_{0 j} - m} + b_{0 j} \cdot m^{i} & if p_{0 j} &NotEqual; m \\ q_{oj} \cdot b_{0 j} (i - 1) p_{0 j}^{i - 1} + b_{0 j} m^{i} & if p_{0 j} = m \end{matrix},

其中，

m＝exp^-α,p_1j＝p_2j＝...＝p_ij＝p_0j和q_1j＝q_2j＝...＝q_ij＝q_0j，

设b_0j偏导数为0，得到

b_{0 j} = \frac{Σ_{i &Element; C} \frac{d_{i}}{v_{ij}}}{Σ_{i &Element; C} \frac{d_{i}^{2}}{v_{ij}^{2}}}

其中

d_{i} = \{\begin{matrix} q_{0 j} \frac{({mp}_{0 j}^{i - 1} - m^{i})}{p_{0 j} - m} + m^{i} & if p_{0 j} &NotEqual; m \\ q_{0 j} (i - 1) p_{0 j}^{i - 1} + m^{i} & if p_{0 j} = m \end{matrix} .

所述的当p_ij和q_ij的变化趋势为同步增加时，优化后单链转移模型如下：

其中m=e^-α。

所述的当p_ij和q_ij的变化趋势为同步减少时，优化后单链转移模型如下：

v_{ij} = i \cdot q_{0 j} b_{0 j} [\frac{{mp}_{0 j}^{i - 3}}{Z^{i - 1}} + \cdot \cdot \cdot + \frac{m^{i - 3} p_{0 j}}{Z^{2} (i - Z)} + \frac{m^{i - 1} p_{0 j}}{Z (i - 1)}] b_{0 j} m^{i}

其中m=e^-α。

还包括利用转移模型进行连载内容质量的评估方法，包括以下步骤：

设定转移模型的评估连载内容的质量为好感度favor，其计算公式如下：

favor∝f(p,q,m,b₀),

其中p为追剧者喜欢某个连载内容的概率,q为新增者喜欢某个连载内容的概率，m为衰减因子指数的倒数，b0为在相应时间连载内容的初始关注度；

针对单链转移模型，favor存在四种简单的形式，公式分别如下：

favor₁∝p_0j·q_0j·m,

favor₂∝p_0j·q_0j·m·b_0j,

favor₃∝p_0j+q_0j+m，

favor₄∝(p_0j+q_0j+m)·b_0j。

有益效果

本发明的一种基于自回归模型的在线连载内容流行度预测方法，与现有技术相比可以实现针对在线连载内容的流行度预测。本发明利用连载内容的历史流行度数据，预测新上映的内容（如新一集）的流行度。其具有如下优点：1、朴素自回归模型利用连载内容相邻集流行度之间的线性相关性，而转移模型从大众用户行为这个角度出发，他们可以从不同角度反应流行度的生成形式；2、作为转移模型的衍生物，利用它的模型参数设计出一个新的评估连载内容质量的指标，对于内容推荐有重要意义。

附图说明

图1为本发明的方法流程图

图2为最近五年电视剧上映第一周平均播放量趋势

图3为连载内容流行度记录

图4为朴素自回归模型原理图

图5为转移模型原理图

图6为单链转移模型原理图

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种基于自回归模型的在线连载内容流行度预测方法，包括以下步骤：

第一步，训练数据的获取，爬取在线连载内容的整体播放量趋势，解析整体播放量趋势页面的HTML源代码，解析每集播放量趋势页面的HTML源代码。

训练数据的获取为现有技术中的内容，训练数据包括最近一段时间很多已经上映完的电视剧及其每集在每个单位时间的播放量（单位时间可能是一天或一周），这些电视剧应该是不同国家或地区（如大陆、美剧）分别构成训练集，过滤掉那些只包含几集的电视剧，同时要注意，电视剧某些集在站内的上映时间有可能是夜里24:00前，这样第一天的播放量会有很大偏差，并不是一整天的播放量，可以删除此时第一天的数据，让第二天成为真正的上映第一天。优酷指数（http://index.youku.com/）可以查询电视剧及每集在最近一年半的播放量，而这些信息直接可以通过解析电视剧对应的网页内容获得，而每个网页都可以使用一种统一的访问方式获取，具体步骤如下：

（1）爬取所有电视剧URL中的ID

优酷电视剧列表页面（http://www.youku.com/v_olist/c_97_a__s_1_d_1.html）中显示了多个分类、多个地区、多种类型等特征下的电视剧，每个电视剧对应一个URL，如小爸爸基本信息网页的URL为http://www.youku.com/show_page/id_zcef59bd63f6411e2a19e.html，其ID为zcef59bd63f6411e2a19e，而通过此ID可以构造出小爸爸视频整体播放量趋势页面的URL：http://index.youku.com/vr_show/showid_zcef59bd63f6411e2a19e.html。

（2）解析整体播放量趋势页面的HMTL源码，获得该电视剧每集播放信息页面对应的URL，如小爸爸第一集每天的播放量页面对应的URL为http://index.youku.com/vr_show/showid_vXNTk3MDIwMDg0?type=youku。

（3）解析每集播放量趋势页面的HMTL源码，可以获取最近一年半电视剧每集每天的播放量。

第二步，流行度预测，利用自回归模型预测新连载内容的流行度。

在线连载内容包含多种形式的内容，如电视连续剧、综艺娱乐节目、动画片、连载小说等。这些内容一般包含多集，并由服务提供商定期更新。这也是和传统用户产生内容的一个主要区别。以在线电视剧为例，作为连载内容最重要的组成部分，服务提供商在每此上映时间时会更新一集或几集，并且每天或每周更新一次。已上映集在不同时间的播放量构成了这个电视剧的流行度记录。事实上，随着剧情的发展，电视剧不同集的流行度一般是不一样的。为了便于理解，我们给出以下定义：

定义1，绝对时间：某个连载内容的绝对时间是从第一集上映时开始的时间；

定义2，相对时间：某集的相对时间是从该集上映时开始的时间；

定义3，上映延迟间隔：某个连载内容的上映延迟间隔是相邻两集上映时间之间的那段时间间隔。

如图3所示，图3是某个连载内容的流行度记录，它的绝对时间对应横轴，第一集在第一个绝对时间间隔上映，第二集在第二个绝对时间间隔上映，而第二集的相对时间从第二个绝对时间间隔开始。单位时间可能是一天或一周。它的上映延迟间隔是一个单位时间。Vij是第i集在第j个相对时间间隔时的流行度。我们的目标就是预测第i集上映第k个单位时间后的流行度。

A、作为自回归模型的一种，我们提出利用朴素自回归模型进行新连载内容流行度的预测。

连载内容所具有的一个特性是一般包含很多集并持续定期更新。直观上，如果某人喜欢一个内容的前几集，他很有可能继续浏览接下来的几集。受这种启发，在第j个相对时间间隔，我们提出利用前几集的流行度预测新一集的流行度。如图4所示，图4展示了朴素自回归模型的原理图，我们可以利用划线部分（如V₁₁、V₂₁、…、V_i-1,1）去预测新一集相同颜色的流行度。

我们以前几集流行度的线性组合来预测新一集的流行度，即朴素自回归模型公式如下：

v_{i, j}^{(n)} = ω_{0} + ω_{1} v_{i - 1, j}^{(n)} + . . . + ω_{r} v_{i - r, j}^{(n)} = w^{T} V;

其中w＝(ω₀，ω₁，...，ω_r)^T，r为模型的秩。

为了提高预测的效果，我们提出两种方法来学习模型参数。

1、共享参数，共享参数意味着所有连载内容具有相同的模型参数，其模型参数的学习包括以下步骤：

（1）定义共享参数，给定连载内容集合S和它们的流行度记录

E＝(E¹·E²，...，E^|S|}，则其中为连载内容n第i集的流行度记录。

（2）可以通过最小化平均相对平方误差（Mean Relative Squared Error，简称MRSE）来学习模型参数，其公式如下：

\arg \min_{w} {L (w) = \frac{1}{| E |} \underset{E^{n} &Element; E}{Σ} {(\frac{w^{T} V}{v_{i, j}^{(n)}} - 1)}^{2}},

其中为流行度真实值。使用流行的奇异值分解（Singular Value Decomposition，简称SVD）技术来解决这个最小化问题。

尽管共享参数可以抓住全体连载内容流行度变化趋势，但会忽视单个内容的流行度趋势。由于质量、题材的不同，不同电视剧会有不同的流行度。这意味着不同的连载内容应该具有不同的模型参数，因此还可以利用私有参数方法来学习模型参数。

2、私有参数，私有参数表示每个连载内容拥有自己的模型参数，它可以捕获自己流行度的变化趋势。但是，单个连载内容只有很少的集数可以作为训练集，这增大了模型模型过拟合的可能性。所以我们在利用MRSE来学习模型参数公式的右边加入惩罚项来抑制这种情况，而最常用的惩罚项是参数的平方和。

则朴素自回归模型中模型参数的学习的方法如下：

定义私有参数，加入惩罚项，其公式如下：

\arg \min_{w} {L (w) = \frac{1}{| E^{n} |} \underset{v_{i, j}^{(n)} &Element; E^{n}}{Σ} {(\frac{w^{T} V}{v_{i, j}^{(n)}} - 1)}^{2} + λ {| w |}^{2}}

其中||w||²＝w^Tw＝ω₀ ²+ω₁ ²+...+ω_r ²，λ为超参。

通过交叉验证时最小化MRSE误差来设置，这个最小化问题同样可以通过SVD求解。共享参数可以在全局上最小化误差，而私有参数注重抓住单个连载内容的流行度变化趋势。当只知道少量的集数时，使用共享参数较好，而当知道很多集的流行度时，共享参数较好。

B、朴素自回归模型虽然利用相邻集之间流行度的相关性，但它只利用图4中相同划线部分的预测新一集的流行度。直观上，同一绝对时间上的流行应该也有依赖关系，如图4中的V₁₃、V₂₂、V₃₁。为了解决这个问题，我们从用户行为的角度出发，提出了转移模型。通过真实世界的观察，我们发现某集的观众（或读者）通常有两部分组成：第一部分是追剧者，这些人是内容的忠实粉丝并会继续观看后续剧集，当然也有一些人会失去兴趣，比如因为找到了新的更有趣的内容；第二部分是新增者，他们是那些第一次观看本内容，如网上随机冲浪者。如果新增人喜欢这个内容，他会继续观看后续剧集，当然可能不在剧集上映的第一天，也可能稍微迟点。这些就是转移模型的基本思想。

流行度预测利用转移模型进行新连载内容流行度的预测，包括以下步骤：

（1）定义变量，具体地，我们定义某集的观众有两部分组成：追剧者和新增者，这些人会从开始看的那集继续一集集得观看后续剧集，从而给转移模型提供了基础。

定义连载内容为n，第i集在第j个相对时间间隔的流行度为V_ij,来自追剧者的浏览量为a_ij，来自新增者的浏览量为b_ij，

当i=0时，则

a_{1 j} = 0, {&ForAll;}_{j} &GreaterEqual; 1;

（2）转移模型的图形表示如图5所示，其公式如下：

\hat{v_{ij}} = a_{ij} + b_{ij},

其中

a_{ij} = Σ_{k = 1}^{j} (a_{i - 1, k} \cdot p_{i - 1, k, j}) + Σ_{k = 1}^{j} (b_{i - 1, k} \cdot q_{i - 1, k, j}),

Σ_{k = j}^{\infty} p_{ijk} = 1, Σ_{k = j}^{\infty} q_{ijk} = 1,

直观上可以看出，p_ijk应随着k的增加而变小，因为大部分人会在第一时间（如上映第一天）观看新一集。为了求解上述方程，我们再定义喜欢或不喜欢某个连载内容的人在观众里面是均匀随机分布的。

则对于任意的i、j、k，

p_ijk＝p_i,jj+1,k+1

q_ijk＝q_i,j+1,k+1。

（3）新增者随着新集的上映在流失，表示bij随着i的增加而有减少的趋势，因此求解b_ij，去除新增者随着新集的上映在流失数，b_ij随着i的增加而有减少的趋势，故

b_ij＝b_0j exp^-αi

（4）对于流行的内容，α和b_0j应该相对大些，因为它们更吸引人。把a_1j、a_ij、b_ij带入方程的计算公式中，得到根据α和b_0j修改转移模型的公式，如下：

\hat{v_{ij}} = f (b_{0}, α, p, q)

以上提供了一种预测v_ij的方法，但是它包含了太多的参数，不能用有效的方法解决，下面我们考虑更少的转移情况来简化方程的求解，则还包括利用单链转移模型进行新连载内容流行度的预测。

（5）当固定j和k的时候，p_ijk随着i的增加而减少，图5中水平转移方向占据大部分，所以，我们假设a_ij（或b_ij）只能转移到a_i+1,j（或b_i+1,j)。图5中复杂的转移模型可以简化成图6中的单链转移模型。

（51）指定q_ij单链转移到a_i+1,j，其公式如下：

a_ij＝a_i-1,j·p_i-1,j+b_i-1,j·q_i-1，j。

（52）把a_1j、b_ij、51步中的a_ij带入方程的计算公式中，得到单链转移模型的,其公式如下：

\begin{matrix} \hat{v_{ij}} = a_{ij} + b_{ij} \\ = a_{i - 1, j} \cdot p_{i - 1, j} + b_{i - 1, j} \cdot q_{i - 1, j} + b_{ij} = . . . \\ = Σ_{n = 1}^{i - 1} (b_{nj} q_{nj} Π_{k = n + 1}^{i - 1} p_{kj}) + b_{ij} \end{matrix} .

（53）和朴素自回归模型一样，利用最小化平均相对平方误差来进行模型参数的计算，其公式如下：

\min_{p_{ij}, q_{ij}, m, b_{0 j}} {L (p_{ij}, q_{ij}, m, b_{oj}) = \frac{1}{2 | C |} \underset{i &Element; C}{Σ} {(\frac{\hat{v_{ij}}}{v_{ij}} - 1)}^{2}}

subject to：0＜p_ij,q_ij,m≤1,

b_0j＞0,

其中m=exp^-α，为v_ij的预测值。

（54）对于一个连载内容，当固定j时，p_ij和q_ij随i的变化不会明显改变，因为内容剧情发展是平稳的。为了使公式更简单，可以根据p_ij和q_ij的同步不变、同步增加、同步减少三种变化趋势优化单链转移模型。

其中：当p_ij和q_ij的变化趋势为同步不变时，优化后单链转移模型如下：

\hat{v_{ij}} = \{\begin{matrix} q_{0 j} \cdot b_{0 j} \frac{({mp}_{0 j}^{i - 1} - m^{i})}{p_{0 j} - m} + b_{0 j} \cdot m^{i} & if p_{0 j} &NotEqual; m \\ q_{oj} \cdot b_{0 j} (i - 1) p_{0 j}^{i - 1} + b_{0 j} m^{i} & if p_{0 j} = m \end{matrix},

其中，

此时针对这个非凸函数，可以通过经典的梯度下降（gradient descent）算法求解，只能得到局部最优解。

由于m、p_0j和q_0j属于区间(0,1]，当固定m，p_0j和q_0j时，是b_0j的线性函数。

设b_0j偏导数为0，得到

b_{0 j} = \frac{Σ_{i &Element; C} \frac{d_{i}}{v_{ij}}}{Σ_{i &Element; C} \frac{d_{i}^{2}}{v_{ij}^{2}}}

其中

d_{i} = \{\begin{matrix} q_{0 j} \frac{({mp}_{0 j}^{i - 1} - m^{i})}{p_{0 j} - m} + m^{i} & if p_{0 j} &NotEqual; m \\ q_{0 j} (i - 1) p_{0 j}^{i - 1} + m^{i} & if p_{0 j} = m \end{matrix} .

当p_ij和q_ij的变化趋势为同步增加时，优化后单链转移模型如下：

其中m=e^-α。

当p_ij和q_ij的变化趋势为同步减少时，优化后单链转移模型如下：

v_{ij} = i \cdot q_{0 j} b_{0 j} [\frac{{mp}_{0 j}^{i - 3}}{Z^{i - 1}} + \cdot \cdot \cdot + \frac{m^{i - 3} p_{0 j}}{Z^{2} (i - Z)} + \frac{m^{i - 1} p_{0 j}}{Z (i - 1)}] b_{0 j} m^{i}

其中m=e^-α。

（55）为了设置合适的b_0i、m、p_0j和q_0j，我们基于上面的原理通过现有技术中的网格搜索方法遍历p、q和m取值空间，具体如下：

首先，遍历p、q和m取值空间，针对每一种组合，按以下公式求出b_0j，

b_{0 j} = \frac{Σ_{i &Element; C} \frac{d_{i}}{v_{ij}}}{Σ_{i &Element; C} \frac{d_{i}^{2}}{v_{ij}^{2}}};

其次，使用优化后的预测单链转移模型后续的播放量，并计算平方相对误差；

最后，若平方相对误差小于最小值，则记录此时的参数值；循环结束后，得到预测误差最小的模型参数值。

通常来说，质量高的连载内容应该吸引更多的观众和获得更高的评分。如果服务提供商能够推荐高质量的内容给用户，用户更有可能去尝试它们，这样他们就获得更高的收益。但是，如何准确、自动的评估内容的质量仍是一个开放的问题。目前为止，有两张流行而又直接的方法：流行度和评分。流行度认为更多的流行度意味着更高的质量，评分允许用户看完内容后给出评分，高评分意味着高质量。然而，这两个指标都有一些明显的缺点，比如，流行度有时并不可靠，一些质量低的内容由于前期的大力宣传也有可能最开始流行度很高，同时在某些网站评分有时又不能够获取。因此，针对连载内容的质量提出新的指标来评估连载内容质量仍有很大吸引力。

由于转移模型的参数（即p,q,m和b0）具有如下特性：

p、q分别表示追剧者和新增者喜欢某个连载内容的概率，m是衰减因子指数的倒数。这样高质量的内容应该对应更大的p、q、m，相反也成立；

b0从某种程度上说是在相应时间大家对这个连载内容的初始关注度。

因此可以提取综合这些参数设计一个新的指标，即好感(favor)，来评估连载内容的质量。包括以下步骤：

（1）设定转移模型的评估连载内容的质量为好感度favor，其计算公式如下：

favor∝f(p,q,m,b₀),

（2）针对单链转移模型，favor存在四种简单的形式，公式分别如下：

favor₁∝p_0j·q_0j·m,

favor₂∝p_0j·q_0j·m·b_0j,

favor₃∝p_0j+q_0j+m，

favor₄∝(p_0j+q_0j+m)·b_0j。

其中favor1和favor3没有考虑初始关注度b0，而favor2和favor4则考虑了。转移模型从用户行为的角度出发，可以解释流行度的产生，同时模型的参数又可以用来评估连载内容的质量。

基于流行度预测和质量评估指标favor，可以扩展很多实际服务，如：选取预测的流行度和质量比较高的内容推荐给用户，而用户更有可能观看这些电视剧；用户行为分析与理解：利用转移模型学到的参数，了解用户是在什么时间段（上映后第几天）观看此电视剧，并可以分析用户对此电视剧的喜欢程度；在线流量管理：缓存那些流行度比较高的电视剧，减少用户访问的响应时间，改善用户体验。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于自回归模型的在线连载内容流行度预测方法，其特征在于，包括以下步骤：

11）训练数据的获取，爬取在线连载内容的整体播放量趋势，解析整体播放量趋势页面的HTML源代码，解析每集播放量趋势页面的HTML源代码；

12）流行度预测，利用自回归模型预测新连载内容的流行度。

2.根据权利要求1所述的一种基于自回归模型的在线连载内容流行度预测方法，其特征在于，所述的流行度预测利用朴素自回归模型进行新连载内容流行度的预测，朴素自回归模型公式如下：

其中w＝(ω₀，ω1，...，ω_r)^T，r为模型的秩。

3.根据权利要求2所述的一种基于自回归模型的在线连载内容流行度预测方法，其特征在于，所述的朴素自回归模型中模型参数的学习包括以下步骤：

31）定义共享参数，给定连载内容集合S和它们的流行度记录

32）利用最小化平均相对平方误差来学习共享参数，其公式如下：

其中为流行度真实值。

4.根据权利要求2所述的一种基于自回归模型的在线连载内容流行度预测方法，其特征在于，所述的朴素自回归模型中模型参数的学习的方法如下：

定义私有参数，加入惩罚项，其公式如下：

其中||w||²＝w^Tw＝ω₀ ²+ω₁ ²+...+ω_r ²，λ为超参。

5.根据权利要求1所述的一种基于自回归模型的在线连载内容流行度预测方法，其特征在于，所述的流行度预测利用转移模型进行新连载内容流行度的预测，包括以下步骤：

51）定义变量，定义连载内容为n，第i集在第j个相对时间间隔的流行度为V_ij,来自追剧者的浏览量为a_ij，来自新增者的浏览量为b_ij，

第i集第j个相对时间间隔的追剧者在第k个相对时间间隔观看第i+1集的概率为p_ijk其中k>=j，

当i=0时，则

52）转移模型的公式如下：

其中

对于任意的i、j、k，则

p_ijk＝p_i,j+1，k+1

q_ijk＝q_i,j+1,k+1；

53）求解b_ij，去除新增者随着新集的上映在流失数，b_ij随着i的增加而有减少的趋势，故

b_ij＝b_0j exp^-αi

54）根据α和b_0j修改转移模型的公式，如下：

其中b₀＝⁽b₀₁，...，b_0j),p＝(p₁₁₁，p₁₁₂，...p_i-1,jj)。

6.根据权利要求5所述的一种基于自回归模型的在线连载内容流行度预测方法，其特征在于，利用单链转移模型进行新连载内容流行度的预测，包括以下步骤：

61）指定a_ij单链转移到a_i+1,j，其公式如下：

a_ij＝a_i-1,j·p_i-1,j+b_i-1,j·q_i-1,j；

62）单链转移模型的公式如下：

63）利用最小化平均相对平方误差来进行模型参数的计算，其公式如下：

subject to：0＜p_ij,q_ij,m≤1,

b_0j＞0,

其中m=exp^-α,为v_ij的预测值；

64）根据p_ij和q_ij的同步不变、同步增加、同步减少三种变化趋势优化单链转移模型；

65）通过网格搜索方法遍历p、q和m取值空间。

7.根据权利要求6所述的一种基于自回归模型的在线连载内容流行度预测方法，其特征在于，所述的当p_ij和q_ij的变化趋势为同步不变时，优化后单链转移模型如下：

其中，

设b_0j偏导数为0，得到

其中

8.根据权利要求6所述的一种基于自回归模型的在线连载内容流行度预测方法，其特征在于，所述的当p_ij和q_ij的变化趋势为同步增加时，优化后单链转移模型如下：

其中m=e^-α。

9.根据权利要求6所述的一种基于自回归模型的在线连载内容流行度预测方法，其特征在于，所述的当p_ij和q_ij的变化趋势为同步减少时，优化后单链转移模型如下：

其中m=e^-α。

10.根据权利要求5所述的一种基于自回归模型的在线连载内容流行度预测方法，其特征在于，还包括利用转移模型进行连载内容质量的评估方法，包括以下步骤：

101）设定转移模型的评估连载内容的质量为好感度favor，其计算公式如下：

favor∝f(p,q,m,b₀),

102）针对单链转移模型，favor存在四种简单的形式，公式分别如下：

favor₁∝p_0j·q_0j·mi,

favor₂∝p_0j·q_0j·m·b_0j,

favor₃∝p_0j+q_0j+m，

favor₄∝(p_0j+q_0j+m)·b_0j。