CN104965836A

CN104965836A - 一种互联网的数据处理方法和装置

Info

Publication number: CN104965836A
Application number: CN201410422320.6A
Authority: CN
Inventors: 程佳; 陈戈; 邹方圆; 李文杰
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2014-08-25
Filing date: 2014-08-25
Publication date: 2015-10-07
Anticipated expiration: 2034-08-25
Also published as: CN104965836B

Abstract

本发明公开了一种互联网的数据处理方法，包括：在离线阶段，通过重复迭代的方式获得需求(Demand)结点约束条件的对偶参数、以及供应(Supply)结点约束条件的对偶参数；根据所述Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数，获得每个任务在相应定向条件下的播放概率；将每个任务中的互联网信息、以及每个任务在相应定向条件下的播放概率，分发给所述相应定向条件下的Supply结点所处的互联网信息播放终端，指示相应终端按获得的所述播放概率播放相应任务中的互联网信息。本发明还公开了一种互联网的数据处理装置。

Description

一种互联网的数据处理方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种互联网的数据处理方法和装置。

背景技术

目前的互联网信息推送，主要是为实现互联网信息在一段时间内在某些定向条件下的播放。这个过程可以用二部图来建模，如图1所示，左侧的供应(Supply)端表示各种定向条件下的播放，不同Supply结点对应不同的权重s_i，表示该定向条件i下的预估播放量(或称播放次数)，右侧的需求(Demand)端表示信息推送需求(为描述方便，后续简称信息推送任务或任务)，包括预定义的互联网信息、定向条件和播放量等，不同Demand结点对应不同的权重d_j，表示任务j所需求的互联网信息播放次数。s_i到d_j的连接线表示s_i对应的定向条件符合任务j的d_j中的需求，每个连接线对应权重x_ij，可以理解为在某一定向条件的播放量s_i到达时，展示任务j的互联网信息的概率为x_ij。x_ij实质上对应了Supply端播放量的库存在线分配方案，如何求解x_ij是互联网信息推送的关键问题。

定向条件有很多维度，如地域、内容、性别、年龄、时间、场景等，而每个维度又包含很多属性，如北京、上海属于地域维度下的两个不同的定向属性。这样，不同的定向属性组合之后的定向条件就会有数十亿种。如果直接全部计算每一个x_ij用于线上服务，那么需要存储维护大量的信息(空间复杂度为图1中Supply端到Demand端的连接线的数量)，在实际的应用中是不可行的。

现有技术将x_ij的求解分为离线阶段和在线阶段这两个过程。离线阶段，根据预估出的每个定向条件的库存信息以及任务信息得到如图1所示的二部图模型，根据模型计算出每个任务对应的参数；在线阶段，当播放量到达时，得到所有符合该定向条件的任务，根据离线阶段计算出的任务参数推导出每个任务的展示概率。具体的算法过程如下：

离线阶段：

1)对所有的Demand结点按照d_j/s_j进行降序排列得到分配顺序，其中，d_j为任务j所需求的互联网信息播放次数，s_j为所有满足d_j定向条件的s_i的预估播放量总和；

2)对所有的Supply结点，初始化即初始化为预估播放量；

3)按照Demand结点的分配顺序，计算ρ_j使得如果ρ_j不存在，则设置ρ_j＝∞；其中，ρ_j表示s_i分配给任务j的播放次数占s_i播放总数的比例，每个Demand结点相对应的Supply结点都使用该比例，B_j表示所有满足Demand结点j定向条件的Supply结点；

并对所有满足Demand结点定向条件的Supply结点i∈B_j，更新其为

{\tilde{s}}_{i} - \min {{\tilde{s}}_{i}, ρ_{j} s_{i}} .

在线阶段：

1)当Supply结点i的播放量到达时，得到所有符合该定向条件的任务，并按所述分配顺序排序；

2)对每个任务j，计算分配顺序排在j之前的任务所对应的概率和P，如果P＞1-ρ_j，则任务j被展示的概率为1-P，否则任务j被展示的概率为ρ_j。

上述算法实质上是启发式的贪心算法，通过对任务分配顺序的调节，使得比较难满足的任务优先分配，按照分配顺序生成每个任务的库存分配方案。当播放到达时，根据分配方案得到对应任务的展示概率x_ij。

然而，现有算法无法保证得到一个相对的最优解，计算x_ij的误差越大，会导致互联网信息推送的效率和准确率越低，无法满足互联网信息的播放需求。因此，如何使计算的x_ij达到相对的最优解，从而保证互联网信息推送的效率和准确率，尽量满足互联网信息的播放需求，是目前亟待解决的技术问题。

发明内容

为解决现有存在的技术问题，本发明提供一种互联网的数据处理方法和装置。

本发明提供一种互联网的数据处理方法，所述方法包括：

在离线阶段，通过重复迭代的方式获得需求Demand结点约束条件的对偶参数、以及供应Supply结点约束条件的对偶参数；

根据所述Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数，获得每个任务在相应定向条件下的播放概率；

将每个任务中的互联网信息、以及每个任务在相应定向条件下的播放概率，分发给所述相应定向条件下的Supply结点所处的互联网信息播放终端，指示相应终端按获得的所述播放概率播放相应任务中的互联网信息。

上述方案中，所述通过重复迭代的方式获得Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数，包括：

根据初始化的Demand结点约束条件的对偶参数计算所述Supply结点约束条件的对偶参数，根据计算所得Supply结点约束条件的对偶参数计算Demand结点约束条件的对偶参数；重复迭代所述Demand结点约束条件的对偶参数、Supply结点约束条件的对偶参数预定次数，输出迭代后的Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数。

a、对于所有任务j，初始化α_j＝0，α_j表示Demand结点约束条件的对偶参数；

b、对于所有定向条件i，计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；其中，β_i表示Supply结点约束条件的对偶参数，Γ(i)表示所有能够被的定向条件i满足的Demand结点，θ_ij表示互联网信息的均匀分布标准，V_j表示任务j对播放均匀分布的要求级别；

c、对于所有任务j，计算α_j使得如果α_j＞p_j或者无解，则设置α_j＝p_j；其中，s_i表示定向条件i下的预估播放量，d_j表示任务j的需求播放量，p_j表示补偿代价；

将所述步骤b和c迭代预定次数，得到迭代后输出的Demand结点约束条件的对偶参数α_j、以及Supply结点约束条件的对偶参数β_i。

上述方案中，所述根据Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数，获得每个任务在相应定向条件下的播放概率，包括：

离线阶段，对于所有定向条件i，初始化s_i表示定向条件i的预估播放量；

对于所有的定向条件i，计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；

对应每个任务j，按照分配顺序执行：

计算ζ_j使得如果无解则设置ζ_j＝∞；对于满足任务j的所有定向条件i，更新用于下一任务的ζ_j计算，输出所有任务的α_j、ζ_j；其中，ζ_j表示用于计算任务j在相应定向条件下播放概率的第一参数，Γ(j)表示所有满足任务j的Supply结点；

在线阶段，在每个s_i到达时，根据α_j计算出β_i，并由ζ_j和β_i计算得出每个任务在相应定向条件下的播放概率。

上述方案中，所述分配顺序为：

对所有的Demand结点按照d_j/s_j进行降序排列，其中，d_j表示任务j所需求的互联网信息播放次数，s_j表示所有满足d_j定向条件的s_i的预估播放量总和。

上述方案中，所述根据α_j计算出β_i，并由ζ_j和β_i计算得出每个任务在相应定向条件下的播放概率，包括：

输入定向条件i和所有满足定向条件i的任务；

设置计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；

对于每个满足定向条件i的任务，按照分配顺序计算更新用于下一个任务的x_ij计算；其中，x_ij表示任务j在定向条件i下的播放概率。

本发明还提供一种互联网的数据处理装置，包括：

对偶参数获得单元，用于在离线阶段，通过重复迭代的方式获得需求Demand结点约束条件的对偶参数、以及供应Supply结点约束条件的对偶参数；

播放概率获得单元，用于根据所述Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数，获得每个任务在相应定向条件下的播放概率；

分发单元，用于将每个任务中的互联网信息、以及每个任务在相应定向条件下的播放概率，分发给所述相应定向条件下的Supply结点所处的互联网信息播放终端，指示相应终端按获得的所述播放概率播放相应任务中的互联网信息。

上述方案中，所述对偶参数获得单元进一步用于，根据初始化的Demand结点约束条件的对偶参数计算所述Supply结点约束条件的对偶参数，根据计算所得Supply结点约束条件的对偶参数计算Demand结点约束条件的对偶参数；重复迭代所述Demand结点约束条件的对偶参数、Supply结点约束条件的对偶参数预定次数，输出迭代后的Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数。

上述方案中，所述对偶参数获得单元进一步用于，通过以下方式获得所述对偶参数：

上述方案中，所述播放概率获得单元进一步用于，通过以下方式获得每个任务在相应定向条件下的播放概率：

对应每个任务j，按照分配顺序执行：

上述方案中，所述分配顺序为：对所有的Demand结点按照d_j/s_j进行降序排列，其中，d_j表示任务j所需求的互联网信息播放次数，s_j表示所有满足d_j定向条件的s_i的预估播放量总和。

上述方案中，所述播放概率获得单元进一步用于，通过以下方式计算每个任务在相应定向条件下的播放概率：

输入定向条件i和所有满足定向条件i的任务；

设置计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；

本发明提供的一种互联网的数据处理方法和装置，能够使计算的x_ij达到相对的最优解，并使互联网信息的播放分布尽量趋向于均匀，从而保证互联网信息推送的效率和准确率，尽量满足互联网信息的播放需求。

附图说明

图1为相关技术中互联网信息在定向条件下播放的二部图建模示意图；

图2为本发明实施例一的互联网的数据处理方法流程图；

图3为本发明实施例二的互联网的数据处理装置结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

互联网信息推送算法应尽量保证信息推送方完成每个推送需求(任务)，假设任务j未完成播放量为u_j，对应的补偿代价为p_j，则整体的补偿代价为：

Σ_jp_ju_j (I)

互联网信息推送算法应保证公式(1)的值尽量最小。

另外，任务中的互联网信息的播放也应当在其所需求的定向条件范围内分布相对均匀。定义Γ(j)为所有满足任务j的Supply结点，Γ(i)为所有能够被s_i的定向条件满足的Demand结点；定义V_j为任务j对播放均匀分布的要求级别，V_j越大表示播放的均匀分布越重要；定义s_j＝∑_i∈Γ(j)s_i表示所有满足任务j的Supply结点播放总量，即任务j的可用库存；因此分配方案的均匀分布标准可以用θ_ij＝d_j/s_j来衡量，其中，d_j表示任务j的需求播放量；则可以得到互联网信息播放分布均匀度的表达式：

\frac{1}{2} \underset{i &Element; Γ (j)}{Σ} s_{i} \frac{V_{i}}{θ_{ij}} {(x_{ij} - θ_{ij})}^{2} - - - (2)

公式(2)的值越小，表示互联网信息的播放分布越趋向于均匀。

为使计算的x_ij达到相对的最优解，并使互联网信息的播放分布尽量趋向于均匀，从而保证互联网信息推送的效率和准确率，本发明实施例将最优化方法和贪心的启发式方法相结合来求解x_ij，以期将原始最优化问题合理的对偶解转化为一个较好的原始问题的解。

下面对本发明实施例的互联网数据处理的方法进行详细说明。

实施例一

本发明实施例一的方法分为两个阶段，第一阶段通过迭代的方法找到原始问题的对偶问题的一个合理的解，每轮迭代都会向最优解逼近(如果一直迭代下去，算法会收敛到真正的最优解)；第二阶段利用贪心的启发式方法将对偶问题的解还原成原始问题的一个较好解。

首先，根据公式(1)和公式(2)，定义互联网信息推送的最优化问题如下：

1)最小化下式：

\frac{1}{2} Σ_{j, i &Element; Γ (j)} s_{i} \frac{V_{j}}{θ_{ij}} {(x_{ij} - θ_{ij})}^{2} + Σ p_{j} u_{j} - - - (3)

其中，s_i表示定向条件i下的预估播放量，Γ(j)表示所有满足任务j的Supply结点数量，V_j表示任务j对播放均匀分布的要求级别，θ_ij表示互联网信息的均匀分布标准，u_j表示任务j未完成播放量，p_j表示与u_j对应的补偿代价，x_ij表示在定向条件i的播放量s_i到达时，展示任务j的互联网信息的概率。

2)满足以下约束条件：

\begin{matrix} Σ_{i &Element; Γ (j)} s_{i} x_{ij} + u_{j} &GreaterEqual; d_{j} & &ForAll; j - - - (4) \end{matrix}

\begin{matrix} {s_{i} Σ}_{j &Element; Γ (i)} x_{ij} \leq s_{i} & &ForAll; i - - - (5) \end{matrix}

\begin{matrix} x_{ij} u_{j} &GreaterEqual; 0 & &ForAll; i, j \end{matrix} - - - (6)

其中，公式(4)的约束条件是指：所有分配给任务j的播放量与任务j未完成播放量之和大于等于任务j的需求播放量；表示任意任务j；

公式(5)的约束条件是指：定向条件i下分配给所有任务的播放量不会超过自身的播放总量s_i；表示任意定向条件i；

公式(6)的约束条件是指：所有分配概率x_ij和未完成播放量u_j的非负约束；表示任意定向条件i、任意任务j。

定义Demand约束条件(即公式(4)所对应的约束条件中的∑_i∈Γ(j)s_ix_ij+u_j)的对偶参数为α_j；定义Supply约束条件(即公式(5)所对应的约束条件中的s_i∑_j∈Γ(i)x_ij)的对偶参数为β_i；定义非负约束条件中的x_ij的对偶参数为γ_ij，u_j的对偶参数为ψ_j。

由拉格朗日方程和KKT(卡罗需-库恩-塔克)条件可得：

1)Stationarity(稳定性条件)：

对于所有定向条件i和任务j，

s_{i} \frac{V_{j}}{θ_{ij}} (x_{ij} - θ_{ij}) - s_{i} α_{i} + s_{i} β_{i} - γ_{ij} = 0 - - - (7)

对于所有任务j，p_j-α_j-ψ_j＝0 (8)

2)Complementary slackness(互补松弛条件)：

对于所有任务j，α_j＝0，否则∑_i∈Γ(j)s_ix_ij+u_j＝d_j； (9)

对于所有定向条件i，β_i＝0，否则∑_j∈Γ(i)s_ix_ij＝s_i； (10)

对于所有定向条件i和任务j，γ_ij＝0，否则x_ij＝0； (11)

对于所有任务j，ψ_j＝0，否则u_j＝0； (12)

并且所有对偶参数非负，即α_j≥0、β_i≥0、γ_ij≥0、ψ_j≥0。由于本发明实施例的最优化问题为凸优化问题，因此满足KKT条件的解即为最优解。

由稳定性条件可知：

x_{ij} = θ_{ij} (1 + \frac{α_{j} - β_{i} + γ_{ij} / s_{i}}{V_{j}}) - - - (13)

而由互补松弛条件的公式(11)可知，γ_ij＝0否则x_ij＝0。因此，如果为负值，则γ_ij将会增大到足够大使得x_ij＝0。可以得到：

x_{ij} = \max {0, θ_{ij} (1 + \frac{α_{j} - β_{i}}{V_{j}})} = g_{ij} (α_{j} - β_{i}) - - - (14)

其中，g_ij表示函数定义，对应函数

由公式(8)得到α_j＝p_j-ψ_j，而ψ_j≥0，因此α_j≤p_j。

由公式(12)可知，如果ψ_j＝0不成立，则u_j＝0，因此可以得到α_j＝p_j，否则∑_i∈Γ(j)s_ix_ij≥d_j。进一步，当α_j＝p_j不成立时，ψ_j＝0不成立，所以u_j＝0。

进而由公式(9)，当α_j＝0不成立时有∑_i∈Γ(j)s_ix_ij＝d_j。而当α_j＝0时，由公式(14)可得到∑_i∈Γ(j)s_ix_ij＝∑_i∈Γ(j)s_ig_ij(-β_i)≤d_j，所以∑_i∈Γ(j)s_ix_ij＝d_j。

综上可得：

α_j＝p_j，否则∑_i∈Γ(j)s_ix_ij＝d_j (15)

由互补松弛条件的公式(10)可得：

β_i＝0，否则∑_j∈Γ(i)x_ij＝1 (16)

设α^*、β^*为最优解的对偶参数，由上述推导中的公式(14)、(15)、(16)可以得到如下结论：

1)原始问题的最优解为x_ij ^*＝g_ij(α_j ^*-β_i ^*)，g_ij(z)＝max{0,θ_ij(1+z/V_j)}；x_ij ^*表示对偶问题的最优解，在满足KKT条件时，对偶问题的最优解与原始问题的最优解相同；z＝α_j ^*-β_i ^*；

2)对于所有任务j，0≤α_j ^*≤p_j，并且α_j ^*＝p_j，否则∑_i∈Γ(j)s_ix^* _ij＝d_j；

3)对于所有的定向条件i，β_i≥0，并且β_i＝0，否则∑_j∈Γ(i)x^* _ij＝1。

根据以上结论，可以采取类似坐标下降法的方式迭代一定次数计算出一组α^*、β^*，再由启发式的贪心策略进一步约束α^*、β^*，求解出原始问题较优的解。两阶段算法描述如下：

阶段一：重复迭代2)、3)一定次数

1)初始化：对于所有任务j，设置α_j＝0

2)对于所有定向条件i，计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；

3)对于所有任务j，计算α_j使得如果α_j＞p_j或者无解，则设置α_j＝p_j。

阶段二：

1)初始化：对于所有定向条件i，设置

2)对于所有的定向条件i，计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；

3)对应每个任务j，按照分配顺序执行：

a)计算ζ_j使得如果无解则设置ζ_j＝∞；ζ_j用于计算任务j在相应定向条件下播放概率的第一参数；

b)对于满足任务j的所有定向条件i，更新输出所有任务的α_j、ζ_j。

在算法的第一阶段，利用反复迭代α_j和β_i得到趋向于最优解的一组对偶参数、即α_j ^*和β_i ^*，α_j ^*和β_i ^*表示变量α_j和β_i在迭代后得到的值，此时并没有对定向条件i进行分配。在迭代一定次数得到α_j ^*和β_i ^*后，必须经过算法的第二阶段才能得到真正的分配方案。在算法的第二阶段，根据剩余库存的量调整ζ_j得到真正的分配方案。

当离线阶段采用上述两阶段算法计算输出α_j和ζ_j后，在线服务只需要存储这两组参数即可，空间复杂度为任务数。在线阶段，当一个播放量s_i到达时，可以根据α_j计算出β_i，再由ζ_j和β_i计算得出分配方案，具体算法如下：

输入：定向条件i和所有满足该定向条件的任务

1)设置计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；

2)对于每个满足该定向条件i的任务，按照分配顺序计算

x_{ij} = \min {{\tilde{s}}_{i}, g_{ij} (ζ_{j} - β_{i})},

更新

{\tilde{s}}_{i} = {\tilde{s}}_{i} - x_{ij};

3)以概率x_ij展示任务j，如果∑_jΓ(i)x_ij＜1，则存在一定的概率不展示任何互联网信息。

在上述基础上，本发明实施例一提供的一种互联网的数据处理方法，如图2所示，包括：

步骤201，在离线阶段，通过重复迭代的方式获得Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数。

步骤201具体包括：

将所述步骤b和c迭代预定次数(即将步骤b计算所得β_i代入步骤c中，将步骤c计算所得α_j代入步骤b中)，得到迭代后输出的Demand结点约束条件的对偶参数α_j、以及Supply结点约束条件的对偶参数β_i。

步骤202，根据Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数，获得每个任务在相应定向条件下的播放概率。

步骤202具体包括：

离线阶段，对于所有定向条件i，初始化即初始化为预估播放量；

对应每个任务j，按照分配顺序执行：

其中，分配顺序为：对所有的Demand结点按照d_j/s_j进行降序排列，其中，d_j表示任务j所需求的互联网信息播放次数，s_j表示所有满足d_j定向条件的s_i的预估播放量总和。

所述根据α_j计算出β_i，并由ζ_j和β_i计算得出每个任务在相应定向条件下的播放概率，包括：包括：

输入定向条件i和所有满足定向条件i的任务；

设置计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；

步骤203，将每个任务中的互联网信息、以及每个任务在相应定向条件下的播放概率，分发给所述相应定向条件下的Supply结点所处的互联网信息播放终端，指示相应终端按获得的所述播放概率播放相应任务中的互联网信息。

所述终端获得所述播放概率后，会根据所述指示按获得的所述播放概率播放相应任务中的互联网信息。

需要说明的是，上述步骤201～203可以由同一设备实现；或者，步骤201～202由同一设备实现，步骤203由另一台设备实现。

实施例二

对应实施例一所述的互联网的数据处理方法，本发明实施例提供了一种互联网的数据处理装置，如图3所示，包括：

对偶参数获得单元10，用于在离线阶段，通过重复迭代的方式获得需求Demand结点约束条件的对偶参数、以及供应Supply结点约束条件的对偶参数；

播放概率获得单元20，用于根据所述Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数，获得每个任务在相应定向条件下的播放概率；

分发单元30，用于将每个任务中的互联网信息、以及每个任务在相应定向条件下的播放概率，分发给所述相应定向条件下的Supply结点，指示相应Supply结点按获得的所述播放概率播放相应任务中的互联网信息。

较佳的，对偶参数获得单元10进一步用于，根据初始化的Demand结点约束条件的对偶参数计算所述Supply结点约束条件的对偶参数，根据计算所得Supply结点约束条件的对偶参数计算Demand结点约束条件的对偶参数；重复迭代所述Demand结点约束条件的对偶参数、Supply结点约束条件的对偶参数预定次数，输出迭代后的Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数。

较佳的，对偶参数获得单元10进一步用于，通过以下方式获得所述对偶参数：

较佳的，播放概率获得单元20进一步用于，通过以下方式获得每个任务在相应定向条件下的播放概率：

对应每个任务j，按照分配顺序执行：

较佳的，所述分配顺序为：对所有的Demand结点按照d_j/s_j进行降序排列，其中，d_j表示任务j所需求的互联网信息播放次数，s_j表示所有满足d_j定向条件的s_i的预估播放量总和。

较佳的，所述播放概率获得单元20进一步用于，通过以下方式计算每个任务在相应定向条件下的播放概率：

输入定向条件i和所有满足定向条件i的任务；

设置计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；

需要说明的是，上述对偶参数获得单元10、播放概率获得单元20和分发单元30可以由互联网的数据处理装置的中央处理器(CPU，Central ProcessingUnit)、微处理器(MPU，Micro Processing Unit)、数字信号处理器(DSP，DigitalSignal Processor)或现场可编辑逻辑阵列(FPGA，Field Programmable GateArray)实现。上述对偶参数获得单元10、播放概率获得单元20和分发单元30可以合设于同一设备中；或者，对偶参数获得单元10和播放概率获得单元20合设，分发单元30分设于另一设备中。

还需要说明的是，上述本发明实施例的互联网信息类型可以是但不仅限于文字、图片、视频等；所述每个任务在相应定向条件下的播放概率可以是每个任务中的文字、图片或视频在相应定向条件下的曝光概率；所述任务可以是互联网信息的曝光订单，订单中描述了互联网信息的推送需求，订单中至少包括：预定义的互联网信息(文字、图片或视频等)、定向条件和需求曝光量等。

本发明实施例还提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，所述指令用于执行本发明实施例所述的互联网的数据处理方法。

本发明实施例通过将最优化问题的求解和启发式的贪心算法相结合，能够使计算的x_ij达到相对的最优解，能够获得较好的互联网信息推送策略，使互联网信息的播放分布尽量趋向于均匀，从而保证互联网信息推送的效率和准确率，尽量满足互联网信息的播放需求。本发明实施例还具有以下主要有益效果：

1)发明实施例的算法可以在迭代少量次数(如5～20次)的情况下，仍能获得较好的效果；

2)发明实施例算法的空间复杂度和二部图模型中的边数无关，可扩展性较好，增加定向纬度和任务数目对系统影响较小；

3)如果算法迭代足够多的次数，可以收敛到一个全局最优解；

4)每个任务只需要存储空间复杂度O(1)的信息。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种互联网的数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述互联网的数据处理方法，其特征在于，所述通过重复迭代的方式获得Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数，包括：

3.根据权利要求2所述互联网的数据处理方法，其特征在于，所述通过重复迭代的方式获得Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数，包括：

4.根据权利要求1所述互联网的数据处理方法，其特征在于，所述根据Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数，获得每个任务在相应定向条件下的播放概率，包括：

离线阶段，对于所有定向条件i，初始化表示定向条件i的预估播放量；

对应每个任务j，按照分配顺序执行：

5.根据权利要求4所述互联网的数据处理方法，其特征在于，所述分配顺序为：

6.根据权利要求4所述互联网的数据处理方法，其特征在于，所述根据α_j计算出β_i，并由ζ_j和β_i计算得出每个任务在相应定向条件下的播放概率，包括：

输入定向条件i和所有满足定向条件i的任务；

设置计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；

7.一种互联网的数据处理装置，其特征在于，包括：

8.根据权利要求7所述互联网的数据处理装置，其特征在于，所述对偶参数获得单元进一步用于，根据初始化的Demand结点约束条件的对偶参数计算所述Supply结点约束条件的对偶参数，根据计算所得Supply结点约束条件的对偶参数计算Demand结点约束条件的对偶参数；重复迭代所述Demand结点约束条件的对偶参数、Supply结点约束条件的对偶参数预定次数，输出迭代后的Demand结点约束条件的对偶参数、以及Supply结点约束条件的对偶参数。

9.根据权利要求8所述互联网的数据处理装置，其特征在于，所述对偶参数获得单元进一步用于，通过以下方式获得所述对偶参数：

10.根据权利要求7所述互联网的数据处理装置，其特征在于，所述播放概率获得单元进一步用于，通过以下方式获得每个任务在相应定向条件下的播放概率：

对应每个任务j，按照分配顺序执行：

11.根据权利要求10所述互联网的数据处理装置，其特征在于，所述分配顺序为：对所有的Demand结点按照d_j/s_j进行降序排列，其中，d_j表示任务j所需求的互联网信息播放次数，s_j表示所有满足d_j定向条件的s_i的预估播放量总和。

12.根据权利要求10所述互联网的数据处理装置，其特征在于，所述播放概率获得单元进一步用于，通过以下方式计算每个任务在相应定向条件下的播放概率：

输入定向条件i和所有满足定向条件i的任务；

设置计算β_i使得如果无解或者β_i＜0，则设置β_i＝0；