CN106204091A

CN106204091A - 数据处理方法和装置

Info

Publication number: CN106204091A
Application number: CN201510282872.6A
Authority: CN
Inventors: 何勇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-05-28
Filing date: 2015-05-28
Publication date: 2016-12-07

Abstract

本申请提出一种数据处理方法和数据处理装置，该数据处理方法包括向训练样本投放运营活动，并获取所述训练样本中每个用户的运营活动结果，所述训练样本是在已有用户中选定的，所述训练样本包括至少一个用户，且每个用户包括至少一个已有特征维度；根据所述每个用户的运营活动结果，以及对应的已有特征维度的值，建立训练模型，并获取训练模型结果；根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测；根据预测结果进行运营决策。该方法能够提高效率，并可以充分挖掘大数据的价值，以及运营活动的效果可以有效沉淀。

Description

数据处理方法和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据处理方法和装置。

背景技术

目前的主要运营方式为：每次运营活动开始前，开发及数据人员为运营人员提供数据标签，然后运营人员依据自己的经验来选取合适的数据标签进而选择用户进行运营活动投放，运营活动结束后会再需要商业智能(Business Intelligence，BI)人员对于投放效果进行分析，分析结果会反馈回来指导运营人员的下一次投放。

目前的数据化运营平台除了步骤繁多效率低下以外，还存在两个问题：其一，不能充分挖掘大数据的价值；其二，运营活动的效果不能有效的沉淀并被后续活动所复用和借鉴。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种数据处理方法，该方法可以提高效率，并可以充分挖掘大数据的价值，以及运营活动的效果可以有效沉淀。

本申请的另一个目的在于提出一种数据处理装置。

为达到上述目的，本申请第一方面实施例提出的数据处理方法，包括：向训练样本投放运营活动，并获取所述训练样本中每个用户的运营活动结果，所述训练样本是在已有用户中选定的，所述训练样本包括至少一个用户，且每个用户包括至少一个已有特征维度；根据所述每个用户的运营活动结果，以及对应的已有特征维度的值，建立训练模型，并获取训练模型结果；根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测；根据预测结果进行运营决策。

本申请第一方面实施例提出的数据处理方法，通过在运营时根据数据本身进行处理，不需要各方人员繁琐参与，可以提高效率，并且由于是对数据本身进行处理的，可以充分挖掘大数据的价值，以及可以对其他用户的运营活动结果进行预测，可以实现运营活动的效果可以有效沉淀。

为达到上述目的，本申请第二方面实施例提出的数据处理装置，包括：投放模块，用于向训练样本投放运营活动，并获取所述训练样本中每个用户的运营活动结果，所述训练样本是在已有用户中选定的，所述训练样本包括至少一个用户，且每个用户包括至少一个已有特征维度；获取模块，用于根据所述每个用户的运营活动结果，以及对应的已有特征维度的值，建立训练模型，并获取训练模型结果；预测模块，用于根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测；运营模块，用于根据预测结果进行运营决策。

本申请第二方面实施例提出的数据处理装置，通过在运营时根据数据本身进行处理，不需要各方人员繁琐参与，可以提高效率，并且由于是对数据本身进行处理的，可以充分挖掘大数据的价值，以及可以对其他用户的运营活动结果进行预测，可以实现运营活动的效果可以有效沉淀。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一实施例提出的数据处理方法的流程示意图；

图2是本申请另一实施例提出的数据处理方法的流程示意图；

图3是本申请另一实施例提出的数据处理方法的流程示意图；

图4是本申请另一实施例提出的数据处理装置的结构示意图；

图5是本申请另一实施例提出的数据处理装置的结构示意图；

图6是本申请另一实施例提出的数据处理装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一实施例提出的数据处理方法的流程示意图，该方法包括：

S11：向训练样本投放运营活动，并获取所述训练样本中每个用户的运营活动结果，所述训练样本是在已有用户中选定的，所述训练样本包括至少一个用户，且每个用户包括至少一个已有特征维度。

其中，已有用户是指已记录有用户数据的用户。

初始时，训练样本可以是运营人员根据业务经验选定的一个用户群。

可选的，参见图2，该方法还可以包括：

S21：构建宽表，所述宽表中记录每个已有用户的标识信息，以及对应的每个已有特征维度的值。

其中，由于用户的特征维度通常较多，因此可以建立宽表，宽表是指元素较多的表。

用户的标识信息例如为用户ID等。

已有特征维度是运营人员通常采用的数据标签，例如数据标签可以如表1所示。

表1

年龄，性别，区域，…
	会员类型，是否实名，是否绑定手机，…
是否余额，是否借记卡快捷，是否信用卡快捷，…
	…

在获取上述数据后，可以建立如表2所示的宽表。其中，在表2中可以根据实际情况，在每个特征维度上填写具体的值(表2未示出具体值)。

表2

用户ID	特征1	特征2	特征3	特征4	特征5
						1
2
						3
4
						5

在运营人员根据业务经验选定一个用户群后，假定选定的用户群用A表示，表2所示的所有用户是已有用户，用O表示，则A包含于O。

选定用户群后，可以将该用户群作为训练样本，针对该训练样本投放运营活动，运营活动例如为广告投放，权益赠送等。

参见图2，所述方法还包括：

S22：当获取所述运营活动结果后，将所述运营活动结果作为新的特征维度的值记录在所述宽表内，以便建立所述训练模型。

例如，参见图3，可以新增一个特征维度Y，Y的取值就是相应用户的运营活动结果。

例如，运营活动室广告投放，则Y＝1表示用户点击了广告，Y＝0表示用户没有点击广告。

表3

用户ID	特征1	特征2	特征3	特征4	特征5	特征Y
							1
2						0
							3	1
4						0
							5

S12：根据所述每个用户的运营活动结果，以及对应的已有特征维度的值，建立训练模型，并获取训练模型结果。

例如，训练模型的数学表达式可以表示为：

Y＝W*X，

其中，Y是运营活动结果，例如，Y＝1或者Y＝0，X是已有特征维度的值组成的列向量，例如，X＝{x₁,x₂,...}^T，其中，x₁,x₂,...分别是每个已有特征维度的值，W是行向量，是要获取的训练模型结果。

在获取训练模型结果W时，可以采用多种方式，以逻辑回归模型为例，逻辑回归模型的训练过程通常包括：先计算预测函数，再根据预测函数计算损失函数，之后再计算损失函数最小时的W，作为训练模型结果。

其中，预测函数是：

σ (y) = \frac{1}{1 + \exp (y)},

y＝w0+w1*x1+w2*x2+...+wm*xm，

其中，y是Y的值，w0,w1,w2,...wm是要求取的值，也就是训练模型结果，x1,x2,...xm分别是每个已有特征维度的值。

由于逻辑回归模型是常用训练模型，具体的求取w0,w1,w2,...wm的步骤在此不再赘述。

因此，通过模型训练可以获取训练模型结果。

S13：根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测。

可选的，另一实施例中，参见图3，获取训练模型结果后还可以包括：

S31：获取所述训练模型结果的评估结果。

其中，可以采用预设手段进行评估，例如，计算训练模型结果的KS值。

KS值的全称是Kolmogorov-Smirnov检验值，是基于累积分布函数，用以检验一个经验分布是否符合某种理论分布或比较两个经验分布是否有显著性差异。由于KS值的计算过程是常用方式，在此不再赘述。

S32：判断所述评估结果是否满足预设要求，若是，执行S13，否则，执行S33。

通常，KS值越大表明性能越好，因此，本实施例中，可以预设一个阈值，当计算得到的训练模型结果的KS值大于该阈值时，表明满足预设要求，否则不满足。

在满足预设要求时，可以根据训练模型结果进行预测。

以上述的逻辑回归模型为例，对于一个其他用户，该其他用户的x1,x2,...xm是已知的，可以在宽表中查询到，而训练模型结果就是w0,w1,w2,...wm，因此，根据公式：

y＝w0+w1*x1+w2*x2+...+wm*xm，以及，

可以得到每个预测结果，其中，预测结果是σ(y)。

由于是一种概率值，因此，预测结果是0～1之间的一个值。

S33：重新选择训练样本。之后可以重新执行S11开始的流程，以便重新获取训练模型结果。

例如，当KS值较小时，表明之前选择的训练样本出现偏差，需要重新选择，具体的运营人员可以根据实际经验或者参照上述的预测结果进行重新选择。

在重新选择训练样本后，可以重新进行上述流程从训练样本开始确定出训练模型结果。

S14：根据预测结果进行运营决策。

可选的，所述根据预测结果进行运营决策，包括：

根据所述预测结果选择下一次运营活动的目标用户群。

其中，在得到所有的预测结果后，可以根据预测结果对用户进行排序，并按照排序结果选择目标用户群。

例如，以广告点击为例，通过上述预测得到的预测结果可以表明每个用户的点击概率，之后可以根据该点击概率降序排列，将点击概率较高的用户排序在前，之后下次需要投放广告时，可以根据相应的费用成本优先向点击概率较高的用户投放，例如，每个用户的投放成本是1元，总的费用成本是1000元，则下一次广告投放时的目标用户群是排序在前的1000个用户。

另一实施例中，参见图4，该数据处理方法还可以包括：

S41：根据所述训练模型结果和所述已有特征维度，确定用于运营的数据标签。

其中，可以将训练模型中最显著的前n个因子，确定为用于运营的数据标签，n是预设值。

因子例如上述公式中的x1,x2,...xm，另外，可以根据因子对应的系数大小确定显著性，例如，wi越大则表明xi越显著。

数据标签可以用于运营人员选择运营活动的用户群，例如，运营人员可以根据性别，区域等选择用户群。

现有技术中，数据标签是由数据人员提供给运营人员的，由于是人为提供会存在数量有限的问题，本实施例通过对数据进行上述处理，可以得到相应的数据标签，避免人为选择的局限性，充分挖掘大数据的价值。现有技术中，投放结果是由BI人员进行分析并反馈给运营人员的，不能有效沉淀，而本实施例通过预测运营结果，可以实现运营活动的有效沉淀，并被后续活动所复用和借鉴。本实施例中，基于机器学习的框架，可充分运用大数据来进行用户的精准营销，无需人为来挑选标签，系统自动完成投放人群的选择，且能够对投放效果做出自动化的预测，同时能够自然地沉淀运营的经验效果，能够为后来的运营借鉴及复用。

因此，本实施例中，通过在运营时根据数据本身进行处理，不需要各方人员繁琐参与，可以提高效率，并且由于是对数据本身进行处理的，可以充分挖掘大数据的价值，以及可以对其他用户的运营活动结果进行预测，可以实现运营活动的效果可以有效沉淀。

图5是本申请另一实施例提出的数据处理装置的结构示意图，该装置50包括：投放模块51，获取模块52，预测模块53和运营模块54。

投放模块51，用于向训练样本投放运营活动，并获取所述训练样本中每个用户的运营活动结果，所述训练样本是在已有用户中选定的，所述训练样本包括至少一个用户，且每个用户包括至少一个已有特征维度；

其中，已有用户是指已记录有用户数据的用户。

另一实施例中，参见图6，该装置50还包括：

构建模块55，用于构建宽表，所述宽表中记录每个已有用户的标识信息，以及对应的每个已有特征维度的值；以及，当获取所述运营活动结果后，将所述运营活动结果作为新的特征维度的值记录在所述宽表内，以便建立所述训练模型。

用户的标识信息例如为用户ID等。

获取模块52，用于根据所述每个用户的运营活动结果，以及对应的已有特征维度的值，建立训练模型，并获取训练模型结果；

例如，训练模型的数学表达式可以表示为：

Y＝W*X，

其中，预测函数是：

σ (y) = \frac{1}{1 + \exp (y)},

y＝w0+w1*x1+w2*x2+...+wm*xm，

因此，通过模型训练可以获取训练模型结果。

预测模块53，用于根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测；

另一实施例中，参见图6，该装置50还包括：

评估模块56，用于获取所述训练模型结果的评估结果；

判断模块57，用于判断所述评估结果是否满足预设要求，以便在所述评估结果满足预设要求时，根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测。

在满足预设要求时，可以根据训练模型结果进行预测。

y＝w0+w1*x1+w2*x2+...+wm*xm，以及，

可以得到每个预测结果，其中，预测结果是σ(y)。

由于是一种概率值，因此，预测结果是0～1之间的一个值。

另一实施例中，参见图6，该装置50还包括：

更新模块58，用于在所述评估结果不满足预设要求时，重新选择训练样本以及重新获取训练模型结果。

运营模块54，用于根据预测结果进行运营决策。

可选的，所述运营模块54具体用于：

根据所述预测结果选择下一次运营活动的目标用户群。

另一实施例中，参见图6，该装置50还包括：

确定模块59，用于根据所述训练模型结果和所述已有特征维度，确定用于运营的数据标签。

本实施例中，通过在运营时根据数据本身进行处理，不需要各方人员繁琐参与，可以提高效率，并且由于是对数据本身进行处理的，可以充分挖掘大数据的价值，以及可以对其他用户的运营活动结果进行预测，可以实现运营活动的效果可以有效沉淀。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“至少一个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更至少一个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，至少一个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或至少一个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种数据处理方法，其特征在于，包括：

向训练样本投放运营活动，并获取所述训练样本中每个用户的运营活动结果，所述训练样本是在已有用户中选定的，所述训练样本包括至少一个用户，且每个用户包括至少一个已有特征维度；

根据所述每个用户的运营活动结果，以及对应的已有特征维度的值，建立训练模型，并获取训练模型结果；

根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测；

根据预测结果进行运营决策。

2.根据权利要求1所述的方法，其特征在于，还包括：

构建宽表，所述宽表中记录每个已有用户的标识信息，以及对应的每个已有特征维度的值；

当获取所述运营活动结果后，将所述运营活动结果作为新的特征维度的值记录在所述宽表内，以便建立所述训练模型。

3.根据权利要求1所述的方法，其特征在于，所述根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测之前，所述方法还包括：

获取所述训练模型结果的评估结果；

判断所述评估结果是否满足预设要求，以便在所述评估结果满足预设要求时，根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测。

4.根据权利要求3所述的方法，其特征在于，所述获取所述训练模型结果的评估结果之后，所述方法还包括：

在所述评估结果不满足预设要求时，重新选择训练样本以及重新获取训练模型结果。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据预测结果进行运营决策，包括：

根据所述预测结果选择下一次运营活动的目标用户群。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述获取训练模型结果之后，所述方法还包括：

根据所述训练模型结果和所述已有特征维度，确定用于运营的数据标签。

7.一种数据处理装置，其特征在于，包括：

投放模块，用于向训练样本投放运营活动，并获取所述训练样本中每个用户的运营活动结果，所述训练样本是在已有用户中选定的，所述训练样本包括至少一个用户，且每个用户包括至少一个已有特征维度；

获取模块，用于根据所述每个用户的运营活动结果，以及对应的已有特征维度的值，建立训练模型，并获取训练模型结果；

预测模块，用于根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测；

运营模块，用于根据预测结果进行运营决策。

8.根据权利要求7所述的装置，其特征在于，还包括：

构建模块，用于构建宽表，所述宽表中记录每个已有用户的标识信息，以及对应的每个已有特征维度的值；以及，当获取所述运营活动结果后，将所述运营活动结果作为新的特征维度的值记录在所述宽表内，以便建立所述训练模型。

9.根据权利要求7所述的装置，其特征在于，还包括：

评估模块，用于获取所述训练模型结果的评估结果；

判断模块，用于判断所述评估结果是否满足预设要求，以便在所述评估结果满足预设要求时，根据所述训练模型结果，对除所述训练样本之外的其他用户的运营活动结果进行预测。

10.根据权利要求9所述的装置，其特征在于，还包括：

更新模块，用于在所述评估结果不满足预设要求时，重新选择训练样本以及重新获取训练模型结果。

11.根据权利要求7-10任一项所述的装置，其特征在于，所述运营模块具体用于：

根据所述预测结果选择下一次运营活动的目标用户群。

12.根据权利要求7-10任一项所述的装置，其特征在于，还包括：

确定模块，用于根据所述训练模型结果和所述已有特征维度，确定用于运营的数据标签。