CN106022511A

CN106022511A - 信息预测方法和装置

Info

Publication number: CN106022511A
Application number: CN201610308649.9A
Authority: CN
Inventors: 代凌旖
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-05-11
Filing date: 2016-05-11
Publication date: 2016-10-12

Abstract

本申请公开了信息预测方法和装置。所述方法的一具体实施方式包括：获取网站的运营数据；对所述运营数据进行分析处理获取特征向量；基于所述特征向量和预先训练的流失率预测模型生成所述网站的用户流失率。该实施方式实现了用户流失率的准确预测。

Description

信息预测方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及互联网技术领域，尤其涉及信息预测方法和装置。

背景技术

近年来，在高速发展互联网的带动下，逐渐形成了“互联网+”生态结构模式。以电子商务为例，其俨然已经成为大众生活中必不可少的一部分，买卖双方通过互联网可以方便、快捷的完成交易。与传统的交易方式相比，电子商务可以大大降低卖方的经营成本，也为买方提供了更大的选择空间。与此同时，这也带来了一系列的问题，例如，面对众多电子商务平台提供的种类繁多的商品，买方往往处于不稳定状态，极易从某个电子商务平台流失。对于电子商务平台而言巨大的用户流失率将会带来严重的、甚至是毁灭性的影响，因此，如何准确、客观的预测用户流失率以便为电子商务平台运营决策提供关键数据，对于电子商务平台来说意义重大。

发明内容

本申请的目的在于提出一种改进的信息预测方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种信息预测方法，所述方法包括：获取网站的运营数据；对所述运营数据进行分析处理获取特征向量；基于所述特征向量和预先训练的流失率预测模型生成所述网站的用户流失率。

在一些实施例中，所述流失率预测模型通过以下方法获得：从包含历史设定时长内网站的运营数据和该历史设定时长内网站的历史用户流失率的训练样本获取样本特征向量；将所述样本特征向量作为输入，所述训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型。

在一些实施例中，在将所述样本特征向量作为输入，所述训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型之前，所述方法还包括：采用尖峰滤波算法对所述训练样本集中的各个训练样本进行处理。

在一些实施例中，所述将所述样本特征向量作为输入，所述训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型，包括：确定支持向量回归机的初始化参数，其中，所述初始化参数包括惩罚因子、误差容限值、核函数类型和核函数参数。

在一些实施例中，所述确定支持向量回归机的初始化参数，包括：通过智能优化算法选取惩罚因子和核函数参数。

在一些实施例中，所述智能优化算法为粒子群优化算法。

第二方面，本申请提供了一种信息预测装置，所述装置包括：获取单元，用于获取网站的运营数据；处理单元，用于对所述运营数据进行分析处理获取特征向量；预测单元，用于基于所述特征向量和预先训练的流失率预测模型生成所述网站的用户流失率。

在一些实施例中，所述流失率预测模型通过以下单元获得：样本特征向量获取单元，用于从包含历史设定时长内网站的运营数据和该历史设定时长内网站的历史用户流失率的训练样本获取样本特征向量；模型训练单元，用于将所述样本特征向量作为输入，所述训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型。

在一些实施例中，所述装置还包括：滤波单元，用于采用尖峰滤波算法对所述训练样本集中的各个训练样本进行处理。

在一些实施例中，所述模型训练单元包括：确定单元，用于确定支持向量回归机的初始化参数，其中，所述初始化参数包括惩罚因子、误差容限值、核函数类型和核函数参数。

在一些实施例中，所述确定单元进一步用于：通过智能优化算法选取惩罚因子和核函数参数。

在一些实施例中，所述智能优化算法为粒子群优化算法。

本申请提供的信息预测方法和装置，通过对获取的网站的运营数据进行分析以便获取特征向量，而后基于特征向量和预先训练的流失率预测模型生成网站的用户流失率，从而有效利用了网站的运营数据，实现了网站用户流失率客观、准确的预测。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的信息预测方法的一个实施例的流程图；

图3是根据本申请的信息预测装置的一个实施例的结构示意图；

图4是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的信息预测方法或信息预测装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对网站运营过程中产生的海量数据进行分析的后台服务器。

需要说明的是，本申请实施例所提供的信息预测方法一般由服务器105执行，相应地，信息预测装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的信息预测方法的一个实施例的流程200。所述的信息预测方法，包括以下步骤：

步骤201，获取网站的运营数据。

在本实施例中，信息预测方法运行于其上的电子设备(例如图1所示的服务器105)可以直接从本地或者通过有线连接方式或者无线连接方式从远程数据库服务器获取网站的运营数据，其中，上述运营数据可以是网站在运营过程中产生的各种数据，例如网站转换率、回访者比率、积极访问者比率、忠实访问者比率、忠实访问者量、平均订货额、再订货率、单个访问者成本、投资回报率、浏览用户量等等。上述网站可以是各种类型的网站，例如购物类网站。可选的，当上述网站为购物网站时，上述运营数据可以包括以下至少一种：网站所售产品的种类、用户完成一次购物所使用的网站搜索引擎的平均次数、设定时长内退货商品的总数、设定时长内换货商品的总数、设定时长内完成交易的商品总数、相同型号产品在网站售价与实体商店售价之比、设定时长内退货商品的总数与完成交易商品的总数之比、设定时长内换货商品的总数与完成交易的商品总数之比、网站搜索引擎平均响应时间、用户完成一次购物浏览网页的平均时间、用户完成一次购物与客服的平均沟通时间、用户退换商品时与客服的平均沟通时间、网站商品的平均运输时间、设定时长内用户对购物体验满意度评价、设定时长内用户对商品物流评价、设定时长内用户对商品的品质评价等等。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤202，对运营数据进行分析处理获取特征向量。

在本实施例中，基于步骤201中获取的运营数据，上述电子设备可以首先利用各种分析手段对上述运营数据进行处理，从而得到运营数据的特征向量。例如，上述电子设备可以首先从上述运营数据中选取出预设种类的数据，之后对选取的数据进行预处理(例如数据类型转换、缩放等等)，最后使用预处理后的数据组成特征向量。

步骤203，基于特征向量和预先训练的流失率预测模型生成网站的用户流失率。

在本实施例中，上述电子设备可以存储有预先训练的流失率预测模型，将步骤202获取的特征向量作为该流失率预测模型的输入，可以得到网站的用户流失率。上述流失率预测模型是基于网站的历史运营数据和历史用户流失率训练得到的。一般当用户最后一次登录时间与当前时间的时间间隔超过预先设定的时间阈值时，可以认为该用户流失，上述时间阈值可以根据实际情况进行设定。例如某网站规定半年未登录的用户为流失用户，则该网站的用户流失率可以为半年未登录该网站的用户数量与半年前用户总数之间的比值。

在本实施例的一些可选的实现方式中，上述流失率预测模型可以通过以下方法获得：首先，用于训练流失率预测模型的电子设备可以从包含历史设定时长内网站的运营数据和该历史设定时长内网站的历史用户流失率的训练样本获取样本特征向量。之后，用于训练流失率预测模型的电子设备可以将样本特征向量作为输入，训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型，上述训练样本集是由多个训练样本组成的集合。

在训练流失率预测模型之前，可以根据网站的运营数据中包含的各种数据与用户流失率之间的相关性选取至少一种数据作为模型训练的输入变量，例如，首先上述电子设备可以分别对获取的网站的历史运营数据中各种数据和网站的历史用户流失率进行相关性分析(例如因子分析、协方差分析等等)，再根据历史运营数据中的各种数据与历史用户流失率之间的相关性从运营数据中选取至少一种数据作为模型训练的输入变量，从而得到训练样本集T＝{(x₁,y₁),…,(x_l,y_l)}∈(Rⁿ×Υ)^l，其中，x_i∈Rⁿ，i＝1,2,…,l表示流失率预测模型的输入；y_i∈Υ＝R，i＝1,2,…,l表示流失率预测模型的输出，l是自然数，表示训练样本集中包含的样本数量，R为实数集，Υ为向量，n为自然数，Rⁿ表示n维实数集。之后，可以对训练样本集中的各个变量分别进行数据正规化处理，其中，上述数据正规化处理过程如下所示：

计算均值：

\overset{&OverBar;}{x_{i}} = \frac{1}{l} Σ_{j = 1}^{l} x_{i j} - - - (1)

计算方差：

σ_{x_{i}}^{2} = \frac{1}{l - 1} Σ_{j = 1}^{l} (x_{i j} - \overset{&OverBar;}{x_{i}}) - - - (2)

标准化：

{\tilde{x}}_{i j} = \frac{x_{i j} - \overset{&OverBar;}{x_{i}}}{σ_{x_{i}}} - - - (3)

其中，x_ij为第i类变量的第j个训练样本，l为训练样本数，为第i类变量的均值，为正规化后的训练样本，表示第i类变量的方差，表示第i类变量的标准差。

在本实施例的一些可选的实现方式中，在将样本特征向量作为输入，训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型之前，还可以采用尖峰滤波算法对训练样本集中的各个训练样本进行处理，以去除训练样本中的尖峰异常数据。

在本实施例的一些可选的实现方式中，使用训练样本集通过支持向量回归机训练流失率预测模型的具体过程可以包括：确定支持向量回归机的初始化参数，其中，初始化参数可以包括惩罚因子C、误差容限值ε、核函数类型和核函数参数δ，上述初始化参数可以根据实际经验人为设定，例如可以设定惩罚因子C取20，误差容限值ε取0.01，核函数取高斯径向基函数K(x,x')＝exp(-||x-x'||²/δ²)，其中核函数参数δ＝1。

在流失率预测模型的训练过程中，需要计算流失率预测模型的回归超平面方程y＝(ω·x)+b，其中ω为流失率预测模型的回归超平面的法方向，b为流失率预测模型的回归超平面的截距。

设模型样本的第i个目标输出为y_i，则将拟合问题等价转化为如下所述的二次规划问题：

\begin{matrix} \min_{w, b, ξ^{(*)}} \frac{1}{2} {|| ω ||}^{2} + C Σ_{i = 1}^{l} (ξ_{i} + ξ_{i}^{*}) \\ \begin{matrix} s . t . & ((ω \cdot x_{i}) + b) - y_{i} \leq ϵ + ξ_{i}, i = 1, ..., l; \\ y_{j} - ((ω \cdot x_{i}) + b) \leq ϵ + ξ_{i}^{*}, i = 1, ..., l; \\ ξ_{i}^{*} &GreaterEqual; 0, i = 1, ..., l . \end{matrix} \end{matrix} - - - (4)

式中，C为惩罚因子，ε为误差容限值，ξ_i和(简记为)为松弛变量。

求解式(4)中二次规划问题的解后，得到回归超平面方程：

y＝(ω·x)+b (5)

将Lagrange函数引入上述问题，导出其对偶问题：

\begin{matrix} \min_{α^{(*)} &Element; R^{2 l}} \frac{1}{2} Σ_{i, j = 1}^{l} (α_{i}^{*} - α_{i}) (α_{j}^{*} - α_{j}) (x_{i} \cdot x_{j}) \\ \begin{matrix} + ϵ Σ_{i = 1}^{l} (α_{i}^{*} + α_{i}) - Σ_{i = 1}^{l} y_{i} (α_{i}^{*} - α_{i}) \\ s . t . & Σ_{i = 1}^{l} (α_{i}^{*} - α_{i}) = 0, \\ 0 \leq α_{i}^{(*)} \leq C, i = 1, ..., l . \end{matrix} \end{matrix} - - - (6)

解得Lagrange乘子向量

计算b：选择位于开区间(0,C)中的α^(*)的分量α_j或若选到的是α_j，则有：

b = y_{j} - Σ_{i = 1}^{l} (α_{i}^{*} - α_{i}) (x_{i} \cdot x_{j}) + ϵ - - - (7)

若选择的是则有：

b = y_{k} - Σ_{i = 1}^{l} (α_{i}^{*} - α_{i}) (x_{i} \cdot x_{k}) - ϵ - - - (8)

构造回归方程：

y = Σ_{i = 1}^{l} (α_{i}^{*} - α_{i}) (x_{i} \cdot x_{k}) + b - - - (9)

式中，y为训练样本输出。(x_i·x_k)是核函数Φ(·)，这里取高斯径向基函数K(x,x')＝exp(-||x-x'||²/δ²)，是对应的拉格朗日乘子的各个分量。

在本实施例的一些可选的实现方式中，在流失率预测模型的训练过程中，可以通过智能优化算法选取支持向量回归机初始参数中的惩罚因子和核函数参数，上述智能优化算法包括但不限于人工神经网络、遗传算法、最小二乘算法、蚁群算法、果蝇算法、模拟退火算法等等。需要说明的是，上述智能优化算法的各种方法是目前广泛研究和应用的公知技术，在此不再赘述。

可选的，上述智能优化算法可以为粒子群优化算法，作为一个实现实例，以下给出了使用粒子群优化算法选取惩罚因子C和核函数参数δ的具体过程：

首先，确定惩罚因子C的搜索范围为[0,100]，核函数参数δ的搜索范围为[0,50]，粒子群个体的数目40，粒子的最大迭代寻优次数600，粒子的惩罚因子C迭代速度的最大值为25，粒子的核函数参数δ迭代速度的最大值为25，粒子的初始位置、初始速度、个体极值以及全局极值随机生成；

之后，设定优化的目标函数，并计算适应度，对每组惩罚因子C和核函数参数δ的效果进行评价，通过式(10)计算适应度。对于误差大的粒子，认为其适应度小，粒子的适应度f_p表示为：

f_p＝1/(e_p+1) (10)

式中，e_p是回归方程的误差函数，即：

e_{p} = \frac{1}{l} Σ_{i = 1}^{l} {({\hat{y}}_{i} - y_{i})}^{2} - - - (11)

式中，是回归方程的预测输出，y_i是回归方程的目标输出；

更新每个粒子的速度和位置

\begin{matrix} v_{i d}^{k} = {wv}_{i d}^{k - 1} + c_{1} {rand}_{1} (p_{i d} - x_{i d}^{k - 1}) + c_{2} {rand}_{2} (p_{g d} - x_{i d}^{k - 1}) \\ x_{i d}^{k} = x_{i d}^{k - 1} + v_{i d}^{k - 1} \end{matrix} - - - (12)

式中，表示待更新粒子的速度，表示待更新粒子的位置，p_id表示待更新粒子的个体最优值，p_gd表示整个粒子群的全局最优值。w为惯性权重，c₁、c₂为加速度常数，rand₁和rand₂为[0,1]范围内的随机数；

对于粒子p，如果更新后的适应度值大于原个体的最优值，则更新粒子的个体最优值p_id，即：

p_id＝f_p (13)

如果粒子p的个体最优值p_id大于原来粒子群的全局最优值p_gd，则更新原来的全局最优值p_gd：

p_gd＝p_id (14)

本申请的上述实施例提供的方法基于网站的运营数据预测网站的用户流失率，充分利用了网站运营过程中产生的数据，从客观的角度对网站的用户流失率进行预测，从而保证了预测的准确性。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种信息预测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的信息预测装置300包括：获取单元301、处理单元302和预测单元303，其中，获取单元301用于获取网站的运营数据；处理单元302用于对所述运营数据进行分析处理获取特征向量；预测单元303用于基于所述特征向量和预先训练的流失率预测模型生成所述网站的用户流失率。

在本实施例中，获取单元301、处理单元302和预测单元303的具体处理可以参考图2对应实施例步骤201、步骤202和步骤203的详细描述，在此不再赘述。

在本实施例的一些可选的实现方式中，所述流失率预测模型通过以下单元获得：样本特征向量获取单元(未示出)，用于从包含历史设定时长内网站的运营数据和该历史设定时长内网站的历史用户流失率的训练样本获取样本特征向量；模型训练单元(未示出)，用于将所述样本特征向量作为输入，所述训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述，在此不再赘述。

在本实施例的一些可选的实现方式中，所述装置还包括：滤波单元(未示出)，用于采用尖峰滤波算法对所述训练样本集中的各个训练样本进行处理。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述，在此不再赘述。

在本实施例的一些可选的实现方式中，所述模型训练单元包括：确定单元(未示出)，用于确定支持向量回归机的初始化参数，其中，所述初始化参数包括惩罚因子、误差容限值、核函数类型和核函数参数。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述，在此不再赘述。

在本实施例的一些可选的实现方式中，所述确定单元进一步用于：通过智能优化算法选取惩罚因子和核函数参数。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述，在此不再赘述。

在本实施例的一些可选的实现方式中，所述智能优化算法为粒子群优化算法。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述，在此不再赘述。

下面参考图4，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统400的结构示意图。

如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、处理单元和预测单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取网站的运营数据的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：获取网站的运营数据；对所述运营数据进行分析处理获取特征向量；基于所述特征向量和预先训练的流失率预测模型生成所述网站的用户流失率。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种信息预测方法，其特征在于，所述方法包括：

获取网站的运营数据；

对所述运营数据进行分析处理获取特征向量；

基于所述特征向量和预先训练的流失率预测模型生成所述网站的用户流失率。

2.根据权利要求1所述的方法，其特征在于，所述流失率预测模型通过以下方法获得：

从包含历史设定时长内网站的运营数据和该历史设定时长内网站的历史用户流失率的训练样本获取样本特征向量；

将所述样本特征向量作为输入，所述训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型。

3.根据权利要求2所述的方法，其特征在于，在将所述样本特征向量作为输入，所述训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型之前，所述方法还包括：

采用尖峰滤波算法对所述训练样本集中的各个训练样本进行处理。

4.根据权利要求2所述的方法，其特征在于，所述将所述样本特征向量作为输入，所述训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型，包括：

确定支持向量回归机的初始化参数，其中，所述初始化参数包括惩罚因子、误差容限值、核函数类型和核函数参数。

5.根据权利要求4所述的方法，其特征在于，所述确定支持向量回归机的初始化参数，包括：

通过智能优化算法选取惩罚因子和核函数参数。

6.根据权利要求5所述的方法，其特征在于，所述智能优化算法为粒子群优化算法。

7.一种信息预测装置，其特征在于，所述装置包括：

获取单元，用于获取网站的运营数据；

处理单元，用于对所述运营数据进行分析处理获取特征向量；

预测单元，用于基于所述特征向量和预先训练的流失率预测模型生成所述网站的用户流失率。

8.根据权利要求7所述的装置，其特征在于，所述流失率预测模型通过以下单元获得：

样本特征向量获取单元，用于从包含历史设定时长内网站的运营数据和该历史设定时长内网站的历史用户流失率的训练样本获取样本特征向量；

模型训练单元，用于将所述样本特征向量作为输入，所述训练样本中的历史用户流失率作为输出，用训练样本集通过支持向量回归机训练流失率预测模型。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

滤波单元，用于采用尖峰滤波算法对所述训练样本集中的各个训练样本进行处理。

10.根据权利要求8所述的装置，其特征在于，所述模型训练单元包括：

确定单元，用于确定支持向量回归机的初始化参数，其中，所述初始化参数包括惩罚因子、误差容限值、核函数类型和核函数参数。

11.根据权利要求10所述的装置，其特征在于，所述确定单元进一步用于：

通过智能优化算法选取惩罚因子和核函数参数。

12.根据权利要求11所述的装置，其特征在于，所述智能优化算法为粒子群优化算法。