CN108171528B

CN108171528B - 一种归因方法及归因系统

Info

Publication number: CN108171528B
Application number: CN201611116108.2A
Authority: CN
Inventors: 胡前; 秦续业; 黄自列; 郭宏杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2022-02-25
Anticipated expiration: 2036-12-07
Also published as: CN108171528A

Abstract

本申请公开了一种归因方法及归因系统，该方法包括：提供包括至少一类归因参数数据的归因参数数据集合；接收用户输入的归因参数配置数据，该归因参数配置数据包括归因计算所需归因参数数据的唯一性标识信息；根据用户输入的唯一性标识信息，从归因参数数据集合中获取与该唯一性标识信息相对应的归因参数数据，并基于获取到的归因参数数据进行归因计算，得到归因计算结果。也就是说，本申请所述方案可提供一种可隔离各种归因业务的通用的归因框架，使得用户只需要根据实际需求对其进行相应的数据配置即可实现不同的归因模型、应用于不同的归因业务，而无须了解相关编程方法，从而可以在大为节约技术开发成本的基础上，提高归因系统的可扩展性。

Description

一种归因方法及归因系统

技术领域

本申请涉及互联网技术领域，尤其涉及一种归因方法及归因系统。

背景技术

对于广告投放等信息投放领域而言，归因指的是如何确定哪些信息转化是由哪些信息触达带来的过程。其中，信息触达是指用户针对广告等信息所发生的浏览、点击、购买、下载等各种能够触及信息的行为；信息转化是指由广告等信息所触发的能够给信息投放方带来相应价值的行为；例如，对于电子商务网站的卖家来说，转化行为可能是指成交；对于致力于推广应用程序的广告主来说，转化行为可能是指下载；而对于某些咨询类公司而言，转化行为则可能是指咨询。

具体地，目前，信息投放方等用户可采用以下方式对广告等信息的信息投放效果进行归因：

针对每一归因业务以及该归因业务所需的每一归因模型，对相应的归因计算引擎进行功能开发，得到一个仅能适用于该归因业务以及该归因业务所需的相应归因模型的定制化的归因计算引擎；基于得到的定制化的归因计算引擎，对该归因业务所需的相应的信息触达数据以及信息转化数据进行关联，得到初始归因关系，并对初始归因关系进行筛选，得到所需的归因计算结果。

也就是说，传统的归因计算往往是针对不同的归因业务、归因模型定制归因计算方案，不仅导致会有大量重复开发工作、提高归因计算的技术成本，而且，由于每一归因计算引擎仅能适用于其所对应的归因业务以及归因模型，因而还会存在可扩展性较差的问题。另外，由于归因计算方案的定制往往需要有经验的业务人员参与，因而，还会进一步提高归因计算的技术成本。

发明内容

本申请实施例提供了一种归因方法及归因系统，用以解决传统的归因计算所存在的可扩展性较差以及技术成本较高等的问题。

一方面，本申请实施例提供了一种归因方法，包括：

提供包括至少一类归因参数数据的归因参数数据集合；其中，所述归因参数包括以下类别：归因输入数据、归因输出字段、归因函数、归因维度以及归因规则，且，所述归因输入数据包括信息触达数据以及信息转化数据；

接收用户输入的归因参数配置数据，所述归因参数配置数据包括归因计算所需归因参数数据的唯一性标识信息；

根据所述归因计算所需归因参数数据的唯一性标识信息，从提供的归因参数数据集合中获取与所述归因计算所需归因参数数据的唯一性标识信息相对应的归因参数数据，并基于获取到的归因参数数据进行归因计算，得到归因计算结果。

另一方面，本申请实施例提供了一种归因系统，包括：

存储设备，用于提供包括至少一类归因参数数据的归因参数数据集合；其中，所述归因参数包括以下类别：归因输入数据、归因输出字段、归因函数、归因维度以及归因规则，且，所述归因输入数据包括信息触达数据以及信息转化数据；

输入设备，用于接收用户输入的归因参数配置数据，所述归因参数配置数据包括归因计算所需归因参数数据的唯一性标识信息；

处理设备，用于根据所述输入设备接收到的所述归因计算所需归因参数数据的唯一性标识信息，从所述存储设备提供的归因参数数据集合中获取与所述归因计算所需归因参数数据的唯一性标识信息相对应的归因参数数据，并基于获取到的归因参数数据进行归因计算，得到归因计算结果。

本申请有益效果如下：

本申请实施例提供了一种归因方法及归因系统，可隔离各种归因业务，使得用户只需要根据实际需求进行相应的归因参数数据配置即可实现不同的归因模型、应用于不同的归因业务，而无须了解相关编程方法，从而可以在大为节约技术开发成本的基础上，提高归因系统的可扩展性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示为本申请实施例提供的一种归因方法的一种可能的流程示意图；

图2所示为本申请实施例提供的一种归因系统的一种可能的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

为了解决传统的归因计算所存在的可扩展性较差以及技术成本较高等的问题，本申请实施例提供了一种归因方法，所述归因方法可应用于广告投放等信息投放领域，另外，所述归因方法的执行主体通常可为相应的归因系统，对此不作限定。具体地，如图1所示，所述归因方法可包括以下步骤：

步骤101：提供包括至少一类归因参数数据的归因参数数据集合；其中，所述归因参数包括以下类别：归因输入数据、归因输出字段、归因函数、归因维度以及归因规则，且，所述归因输入数据包括信息触达数据以及信息转化数据。

具体地，各类归因参数的含义可如下所述：

(1)、归因输入数据，即，归因系统的源数据，可包括信息触达数据以及信息转化数据；另外，在信息投放领域，信息触达数据以及信息转化数据等通常可以ODPS(Open DataProcessing Service，开放数据处理服务)表的形式存储在ODPS中；

(2)、归因输出字段，即，归因系统最终所需输出的字段；如，归因输出字段可用于指明信息触达数据以及信息转化数据中的哪些字段最终将被输出；更具体地，以信息转化数据对应的转化行为包括点赞以及分享等为例，归因输出字段可用于指明最终需输出哪种转化行为，如点赞和/或分享的相关数据；

(3)、归因函数，即，归因计算过程中所需使用到的各种表达式、函数名、关键字等；

(4)、归因维度，也可称为归因粒度；如，以将所述归因系统应用于广告投放等信息投放领域为例，所述归因维度可为商品、网站、品牌等信息投放维度；

(5)、归因规则，即，归因计算时所遵循的筛选规则，如，可为时间优先、位置优先、线性均摊等。

也就是说，归因系统可预先提供包括一类或多类归因参数数据的归因参数数据集合，以便后续可根据用户的实际需求，从提供的归因参数数据集合中选取不同的归因参数数据实现不同的归因模型、应用于不同的归因业务。其中，所提供的每类归因参数数据中可包括一个或多个相应的归因参数数据，对此不作限定。

步骤102：接收用户输入的归因参数配置数据，所述归因参数配置数据包括归因计算所需归因参数数据的唯一性标识信息。

可选地，可通过XML(可扩展标记语言，Extensible Markup Language)接口接收用户输入的归因参数配置数据。即，在本申请所述实施例中，信息投放方等存在归因需求的用户通过配置XML即可实现归因数据的接入和运算，从而解决了通用的归因配置接口问题，可实现归因计算的低成本接入。另外，需要说明的是，除了可通过XML接口接收用户输入的归因参数配置数据之外，还可通过其它类型的接口，如JSON(JavaScript Object Notation)接口等接收用户输入的归因参数配置数据，对此不作限定。

进一步地，用户输入的归因计算所需归因参数数据的唯一性标识信息可为任意的、能够唯一标识相应归因参数数据的标识信息。如，以归因参数数据为信息触达数据为例，该归因参数数据的唯一性标识信息可为信息触达数据所对应的ODPS表的表名、信息触达数据所对应的ODPS表的存储地址、或者ODPS表的表名与ODPS表的存储地址的组合等等；又如，以归因参数数据为归因函数为例，该归因参数数据的唯一性标识信息可为归因函数的名称、归因函数涉及到的关键字、表达式等等；再如，以归因参数数据为归因规则为例，该归因参数数据的唯一性标识信息可为归因规则的名称、归因规则涉及到的排序方式等等。

另外，可选地，在接收用户输入的归因参数配置数据之前，可将归因参数数据集合中的各归因参数数据的唯一性标识信息提供给用户，以便用户根据归因系统提供的唯一性标识信息输入相应的归因参数配置数据，对此不作限定。

进一步地，在接收用户输入的归因参数配置数据之后，还可将接收到的归因参数配置数据进行存储以便后续归因计算时使用。可选地，可将用户输入的归因参数配置数据存储在ODPS、HDFS(Hadoop Distributed File System)、HIVE等存储设备中，对此也不作限定。

例如，以通过XML接口接收用户输入的归因参数配置数据为例，在接收用户输入的归因参数配置数据之后，还可将接收到的各归因参数配置数据以XML文件形式存储在相应的存储设备中。如，可在相应的存储设备中为每一个归因参数数据配置项设置一个XML标签，每一个XML标签下都有相应的子标签，标签里的内容可以是变量或常量等。

具体地，以归因输入数据、归因维度以及归因规则为例，与归因输入数据、归因维度以及归因规则等相关的配置标签可举例如下：

触达表配置标签，即visit-table-view标签：该标签下可包含触达表的表名、需要用到的字段(如各信息触达数据对应的信息触达时间、信息触达方的ID、信息投放方的ID等)、触达表所在分区等子标签；

转化表配置标签，即convertion标签：该标签下可包含转化表的表名、需要用到的字段(如各信息转化数据对应的信息转化时间、信息触达方的ID、信息投放方的ID等)、转化表所在分区等子标签；

归因维度配置标签，即dimention标签：该标签的具体内容可为相应网站的ID、商品的ID、或品牌的ID等；

归因规则配置标签，即rule标签，该标签下可包含优先级字段、优先级排序方式等子标签。

另外，需要说明的是，本申请所述实施例中，用户输入的归因参数配置数据可根据用户的实际需求进行灵活调整。即，用户可根据当前所需执行的归因业务以及当前所需的归因模型输入不同的归因参数配置数据，从而使得后续归因计算时所需的归因参数数据，如所需的具体的归因输入数据、归因输出字段、归因函数、归因维度以及归因规则等各类归因参数数据都可以根据用户的实际需求进行灵活扩展与定制，如，在本申请实施例中，可通过配置归因规则轻易得到各种不同归因模型下的归因效果等，以达到提高归因系统的灵活性以及可扩展性的目的。

再有，需要说明的是，在接收到用户输入的归因参数配置数据之后，还可对用户输入的归因参数配置数据进行合理性检测，在确定用户输入的归因参数配置数据合理后，再执行后续步骤103，否则(如，确定用户输入的归因维度不存在，或触达表的时间晚于转化表的时间等)，则可提醒用户以便用户对其输入的归因参数配置数据进行相应修改，对此均不作赘述。

步骤103：根据所述归因计算所需归因参数数据的唯一性标识信息，从提供的归因参数数据集合中获取与所述归因计算所需归因参数数据的唯一性标识信息相对应的归因参数数据，并基于获取到的归因参数数据进行归因计算，得到归因计算结果。

可选地，由于归因系统在提供包括至少一类归因参数数据的归因参数数据集合时，通常还可提供有归因参数数据的唯一性标识信息与归因参数数据的对应关系，因而，根据所述归因计算所需归因参数数据的唯一性标识信息，从提供的归因参数数据集合中获取与所述归因计算所需归因参数数据的唯一性标识信息相对应的归因参数数据，可具体实施为：

根据所述归因计算所需归因参数数据的唯一性标识信息，以及，归因参数数据的唯一性标识信息与归因参数数据的对应关系，从提供的归因参数数据集合中获取与所述归因计算所需归因参数数据的唯一性标识信息相对应的归因参数数据。

另外，归因系统还可通过其它方式，如遍历查找等方式，从提供的归因参数数据集合中获取与归因计算所需归因参数数据的唯一性标识信息相对应的归因参数数据，对此不作限定。

特殊地，针对归因计算所需的任一归因参数数据，若根据用户输入的该归因参数数据的唯一性标识信息，确定无法从提供的归因参数数据集合中获取到对应的归因参数数据，则所述方法还可包括：

基于用户输入的该归因参数数据的唯一性标识信息，创建相应的自定义归因参数，并将创建的自定义归因参数作为获取到的与用户输入的该归因参数数据的唯一性标识信息相对应的归因参数数据。

也就是说，归因计算所需的各归因参数数据除了可为归因系统中的自有归因参数数据之外，还可为用户自定义的归因参数数据，以进一步提高归因系统的灵活性以及可扩展性，实现用户实现特殊的归因需求。

例如，以归因参数中的归因函数为例，其除了可为系统自有函数之外(具体地，由于归因是一个很复杂的数据处理过程，往往会涉及到许多数据运算，因此，为了简化开发成本，本申请实施例所述的归因系统预先提供了50多种关键词或函数，比如if、case when、cast、split、min、url_encode等)，还可为用户自定义函数，以便可以扩展实现特殊的归因需求。

可选地，归因系统可通过以下方式创建相应的自定义归因函数：

基于Javacc对用户输入的归因参数配置数据中的归因函数数据的唯一性标识信息(如自定义关键字、自定义表达式或自定义函数名等)进行语法编写，生成相应的class文件；或者，

基于java语言自定义实现相关编写函数，并基于自定义实现的相关编写函数对用户输入的归因参数配置数据中的归因函数数据的唯一性标识信息(如自定义关键字、自定义表达式或自定义函数名等)进行语法编写，生成相应的class文件。

即，为了提高归因系统的可扩展性，本申请实施例所述归因系统可支持自定义函数，只需要通过Java实现该函数，通过本申请实施例提供的注册方式加载该函数即可(具体地，可将生成的相应class文件通过函数注册器绑定，在运行过程中，调用该函数时会自动通过注册器调用相应的class文件，从而，能扩展定制的UDF、UDTF、或UDAF等)。

进一步可选地，基于获取到的归因参数数据进行归因计算，得到归因计算结果，可具体实施为：

调用获取到的归因函数，执行以下操作：从获取到的归因输入数据中选取对应的归因维度为获取到的归因维度的信息触达数据，以及对应的归因维度为获取到的归因维度、且对应的转化行为为获取到的归因输出字段所指示的转化行为的信息转化数据；并

以获取到的归因维度、信息投放方以及信息触达方三个维度为键值(即，键值为{归因维度+信息投放方+信息触达方})，对选取到的每一信息触达数据与选取到的信息转化数据中的、与该信息触达数据具备相同键值且对应的信息转化时间不早于该信息触达数据对应的信息触达时间的信息转化数据进行合并，得到初始归因关系；以及，基于获取到的归因规则，从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系，并将筛选出的归因关系作为最终所需的归因计算结果。

其中，需要说明的是，特殊地，当获取到的归因维度为多个(如为商品ID+网站ID)时，进行数据合并时所使用的键值可根据设定的匹配规则来定，其中，该匹配规则可由用户来配置(即可为用户输入的)，或者，也可由归因系统默认设置(如，默认为全匹配)。例如，若设定的匹配规则为全匹配，则进行数据合并时使用的键值可为{商品ID+网站ID+信息投放方+信息触达方}，若设定的匹配规则为部分匹配，则进行数据合并时使用的键值可为{商品ID+信息投放方+信息触达方}和/或{网站ID+信息投放方+信息触达方}，对此不作赘述。

进一步可选地，从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系，可具体实施为：

判断所述获取到的归因规则中是否设置有优先级字段以及对应的优先级排序方式，若否，则将所述初始归因关系作为符合所述获取到的归因规则的归因关系；若是，则针对每组由具备相同键值的初始归因关系组成的初始归因关系集合，确定与该初始归因关系集合对应的优先级字段以及对应的优先级排序方式，并基于与该初始归因关系集合对应的优先级字段以及对应的优先级排序方式，从该初始归因关系集合中筛选出与该初始归因关系集合对应的优先级字段的具体取值符合与该初始归因关系集合对应的优先级排序方式的初始归因关系，以及，将对各组初始归因关系集合进行筛选所筛选得出的各初始归因关系作为符合所述获取到的归因规则的归因关系。

其中，需要说明的是，每一初始归因关系集合对应的优先级(包括优先级字段以及优先级排序方式)可由其对应的键值中的归因维度来定。另外，由于用户在进行数据配置时，可为配置的多个归因维度配置相同的优先级或不同的优先级，因而，对应的归因维度不同的初始归因关系集合对应的优先级也可相同或不同。

例如，以获取到的归因维度为商品ID+网站ID为例，若用户为商品ID这一归因维度配置了优先级1，为网站ID这一归因维度配置了不同于优先级1的优先级2，则由键值为{商品ID+信息投放方+信息触达方}的初始归因关系组成的初始归因关系集合1，与由键值为{网站ID+信息投放方+信息触达方}的初始归因关系组成的初始归因关系集合2对应的优先级可互不相同，对此不作赘述。

具体地，下面将以一具体实例为例，对归因系统所进行的归因计算过程进行简要说明：

假设获取到的归因维度为商品ID，如商品A；获取到的信息触达数据包括：{商品A+信息触达用户A+信息投放用户A+浏览(浏览时间为2016-10-01-09:00)}、{商品A+信息触达用户A+信息投放用户A+收藏(收藏时间为2016-10-01-09:05)}、{商品B+信息触达用户A+信息投放用户A+浏览(浏览时间为2016-10-01-09:00)}、{商品A+信息触达用户B+信息投放用户A+点击(点击时间为2016-10-02-09:00)}、{商品A+信息触达用户B+信息投放用户A+浏览(浏览时间为2016-10-02-08:55)}、{商品A+信息触达用户A+信息投放用户B+收藏(收藏时间为2016-10-03-09:00)}、{商品A+信息触达用户A+信息投放用户B+点击(点击时间为2016-10-03-08:55)}；

获取到的信息转化数据包括：{商品A+信息触达用户A+信息投放用户A+购买(购买时间为2016-10-01-10:00)}、{商品A+信息触达用户A+信息投放用户A+咨询(咨询时间为2016-10-01-09:10)}、{商品A+信息触达用户A+信息投放用户A+购买(购买时间为2016-10-01-08:00)}、{商品B+信息触达用户A+信息投放用户A+分享(分享时间为2016-10-02-09:00)}、{商品A+信息触达用户B+信息投放用户A+分享(分享时间为2016-10-02-08:00)}、{商品A+信息触达用户B+信息投放用户A+购买(购买时间为2016-10-02-09:30)}、{商品A+信息触达用户B+信息投放用户A+购买(购买时间为2016-10-02-08:30)}、{商品A+信息触达用户A+信息投放用户B+购买(购买时间为2016-10-03-11:00)}；且，获取到的归因输出字段所指示的转化行为为“购买”；则，

从获取到的归因输入数据中选取的信息触达数据可为：

{商品A+信息触达用户A+信息投放用户A+浏览(浏览时间为2016-10-01-09:00)}、{商品A+信息触达用户A+信息投放用户A+收藏(收藏时间为2016-10-01-09:05)}、{商品A+信息触达用户B+信息投放用户A+点击(点击时间为2016-10-02-09:00)}、{商品A+信息触达用户B+信息投放用户A+浏览(浏览时间为2016-10-02-08:55)}、{商品A+信息触达用户A+信息投放用户B+收藏(收藏时间为2016-10-03-09:00)}、{商品A+信息触达用户A+信息投放用户B+点击(点击时间为2016-10-03-08:55)}；

从获取到的归因输入数据中选取的信息转化数据可为：

{商品A+信息触达用户A+信息投放用户A+购买(购买时间为2016-10-01-10:00)}、{商品A+信息触达用户A+信息投放用户A+购买(购买时间为2016-10-01-08:00)}、{商品A+信息触达用户B+信息投放用户A+购买(购买时间为2016-10-02-09:30)}、{商品A+信息触达用户B+信息投放用户A+购买(购买时间为2016-10-02-08:30)}、{商品A+信息触达用户A+信息投放用户B+购买(购买时间为2016-10-03-11:00)}；

相应地，以获取到的归因维度、信息投放方以及信息触达方三个维度为键值，对选取到的每一信息触达数据与选取到的信息转化数据中的、与该信息触达数据具备相同键值且对应的信息转化时间不早于该信息触达数据对应的信息触达时间的信息转化数据进行合并，得到的初始归因关系可为：

{浏览(浏览时间为2016-10-01-09:00)+商品A+信息触达用户A+信息投放用户A+购买(购买时间为2016-10-01-10:00)}；

{收藏(收藏时间为2016-10-01-09:05)+商品A+信息触达用户A+信息投放用户A+购买(购买时间为2016-10-01-10:00)}；

{点击(点击时间为2016-10-02-09:00)+商品A+信息触达用户B+信息投放用户A+购买(购买时间为2016-10-02-09:30)}；

{浏览(浏览时间为2016-10-02-08:55)+商品A+信息触达用户B+信息投放用户A+购买(购买时间为2016-10-02-09:30)}；

{收藏(收藏时间为2016-10-03-09:00)+商品A+信息触达用户A+信息投放用户B+购买(购买时间为2016-10-03-11:00)}；

{点击(点击时间为2016-10-03-08:55)+商品A+信息触达用户A+信息投放用户B+购买(购买时间为2016-10-03-11:00)}；

相应地，若假设用户为商品A这一归因维度配置的优先级字段为“信息触达时间”、优先级排序方式为“desc(降序排列，即，仅选取对应的信息触达时间最近的数据保留下来，进入归因输出阶段)”，则基于获取到的归因规则，从合并得到的初始归因关系中筛选出的符合所述获取到的归因规则的归因关系可为：

{收藏(收藏时间为2016-10-03-09:00)+商品A+信息触达用户A+信息投放用户B+购买(购买时间为2016-10-03-11:00)}。

另外，需要说明的是，若用户在进行数据配置时，已配置了需对哪个或哪些信息投放方的信息投放效果进行归因(如仅对信息投放用户A的信息投放效果进行归因)(即用户输入的归因参数配置数据中包含有需要归因的信息投放方的标识信息)，则在按照上述方式进行归因计算时，可仅对配置的信息投放方(如信息投放用户A)的相关数据进行合并与筛选，对此不作赘述。

进一步可选地，由于归因计算通常需要耗费巨大的计算能力才能完成，若采用集中式计算方式则需要消耗相当长的时间，因而，为了节约整体计算时间、提高归因计算的效率，可采用MapReduce(映射归约)等分布式计算方式进行归因计算，得到所需的归因计算结果。

其中，MapReduce是一种分布式计算框架，采用分而治之的思想，其把对大规模数据集的操作分发给各个分节点共同完成(此过程为Map任务)，然后通过整合各个节点的中间结果得到最终结果(此过程为Reduce任务)。因此，MapReduce会将任务抽象成两个任务：Map和Reduce，Map负责把任务分解成多个任务，Reduce负责把分解后多任务处理的结果汇总处理。

具体地，在采用MapReduce进行归因计算时，可将从获取到的归因输入数据中选取相关信息触达数据和信息转化数据的操作过程作为Map任务，将对选取到的信息触达数据和信息转化数据进行合并，得到初始归因关系，并对初始归因关系进行筛选的操作过程作为Reduce任务。

也就是说，Map过程主要为以用户配置的归因维度作为key(键值)输出信息触达数据和信息转化数据，比如，若归因维度为商品ID，则可输出key(键值)为{商品ID+信息触达用户+信息投放用户+其它(触达数据或转化数据)}的数据；

而Reduce过程主要为将Map过程输出的信息触达数据和信息转化数据进行合并，合并的key(键值)为{归因维度+信息触达用户+信息投放用户}，得到数据{触达数据+归因维度+信息触达用户+信息投放用户+转化数据}(这样的数据即可称之为初始归因关系)，并通过获取到的归因规则，从得到的初始归因关系中筛选出符合获取到的归因规则的归因关系作为最终所需的归因关系。

再有，需要说明的是，在从获取到的归因输入数据中选取对应的归因维度为获取到的归因维度的信息触达数据，以及对应的归因维度为获取到的归因维度、且对应的转化行为为获取到的归因输出字段所指示的转化行为的信息转化数据之前，还可根据实际需求对获取到的归因输入数据进行数据清洗，如对获取到的归因输入数据进行时间格式转化、数据类型转化、或者一些定制的数据处理等。

可选地，在本申请实施例中，可通过使用系统自有函数或者用户自定义函数对获取到的归因输入数据进行数据清洗，对此不作限定。

再有，需要说明的是，在从合并得到的初始归因关系中筛选出符合所述获取到的归因规则的归因关系之后，且，将筛选出的归因关系作为最终所需的归因计算结果之前，还可对筛选出的归因关系进行聚合处理。如，可根据实际需求的不同，对筛选出的归因关系进行sum、count、max或min等聚合处理。

可选地，在本申请实施例中，可通过使用系统自有函数或者用户自定义函数对筛选出的归因关系进行聚合处理，对此也不作限定。

进一步地，由于大部分信息触达数据可能无法带来转化，如果这部分触达数据继续参与之后的运算，会非常消耗资源且存在倾斜的可能，降低归因系统的性能，因此，在以获取到的归因维度、信息投放方以及信息触达方三个维度为键值，对选取到的每一信息触达数据与选取到的信息转化数据中的、与该信息触达数据具备相同键值且对应的信息转化时间不早于该信息触达数据对应的信息触达时间的信息转化数据进行合并之前，还可过滤选取到的信息触达数据中的未带来转化的信息触达数据，从而相较于传统归因计算中将触达数据和转化数据直接关联而言，可极大地降低系统处理压力，节省系统处理成本，提高系统性能。

可选地，可通过Bloom Filter(布隆过滤器)过滤选取到的信息触达数据中的未带来转化的信息触达数据。由于Bloom Filter过滤器使用了图索引，性能较快，且内存占用很小(最大内存占用仅为268MB)，支持21亿个标志位，因而，非常适合触达数据这种亿级别数据的过滤。

另外，除了可通过Bloom Filter过滤选取到的信息触达数据中的未带来转化的信息触达数据之外，还可采用直接在内存中进行HASH过滤，或者建立索引过滤等，对此不作限定。

具体地，以通过Bloom Filter过滤选取到的信息触达数据中的未带来转化的信息触达数据为例，归因系统具体可通过解析用户输入的归因参数配置数据得到用户配置的过滤时需要参考的转化表，以及，基于该转化表得到转化关系列表，即信息触达用户和信息投放用户的关系{信息触达用户，信息投放用户}；以及，针对选取得到的每一信息触达数据，抽象出{信息触达用户，信息投放用户}，并通过查看其是否存在于上述转化关系列表中，来判断是否需要对该信息触达数据进行过滤(如，若不存在于上述转化关系列表中，则对该信息触达数据进行过滤，否则不过滤)，对此不作赘述。

另外，需要说明的是，以基于XML接口接收用户输入的归因参数配置数据为例，当用户输入的归因参数配置数据中包含与信息过滤相关的数据时，归因系统还可将接收到的与信息过滤相关的数据以XML文件形式存储在相应的存储设备中。如，可在相应存储设备中设置一个对应的过滤器配置标签，即filter标签，该标签下可包含需要使用的过滤方法、过滤时需要参考的转化表的表名等子标签，对此也不作赘述。

进一步地，由于普通函数处理数据流为行处理(即每来一行处理一行数据，对于大数据而言，数千万行的处理需要进行数千万次函数调度，非常消耗系统CPU调度资源)，因而，为了节省系统CPU资源，提高系统处理效率，在本申请所述实施例中，可采用批处理方式，调用获取到的归因函数以执行所需的数据处理操作。即，在本申请所述实施例中，支持数据的向量化输入，即支持数千行为输入单位，进行批处理，对此不作赘述。

进一步地，基于同样的发明构思，本申请实施例还提供了一种归因系统，所述归因系统的具体实施可参见上述方法实施例，对此不作赘述。具体地，如图2所示(图2为本申请实施例提供的一种归因系统的一种可能的结构示意图)，所述归因系统可包括：

存储设备21，用于提供包括至少一类归因参数数据的归因参数数据集合；其中，所述归因参数包括以下类别：归因输入数据、归因输出字段、归因函数、归因维度以及归因规则，且，所述归因输入数据包括信息触达数据以及信息转化数据；

输入设备22，用于接收用户输入的归因参数配置数据，所述归因参数配置数据包括归因计算所需归因参数数据的唯一性标识信息；可选地，所述输入设备22具体可用于基于XML接口等接收用户输入的归因参数配置数据；

处理设备23，用于根据所述输入设备22接收到的所述归因计算所需归因参数数据的唯一性标识信息，从所述存储设备21提供的归因参数数据集合中获取与所述归因计算所需归因参数数据的唯一性标识信息相对应的归因参数数据，并基于获取到的归因参数数据进行归因计算，得到归因计算结果。

可选地，如图2所示，所述处理设备23具体可包括数据解析处理器231(一个或多个)以及归因计算处理器232(一个或多个)。其中，所述数据解析处理器231可用于根据所述输入设备22接收到的所述归因计算所需归因参数数据的唯一性标识信息，从所述存储设备21提供的归因参数数据集合中获取与所述归因计算所需归因参数数据的唯一性标识信息相对应的归因参数数据；所述归因计算处理器232可用于基于获取到的归因参数数据进行归因计算，得到归因计算结果。

进一步地，所述处理设备23(具体可为归因计算处理器232)具体可用于通过调用获取到的归因函数，执行以下操作：从获取到的归因输入数据中选取对应的归因维度为获取到的归因维度的信息触达数据，以及对应的归因维度为获取到的归因维度、且对应的转化行为为获取到的归因输出字段所指示的转化行为的信息转化数据；并

以获取到的归因维度、信息投放方以及信息触达方三个维度为键值，对选取到的每一信息触达数据与选取到的信息转化数据中的、与该信息触达数据具备相同键值且对应的信息转化时间不早于该信息触达数据对应的信息触达时间的信息转化数据进行合并，得到初始归因关系；以及，基于获取到的归因规则，从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系，并将筛选出的归因关系作为最终所需的归因计算结果。

可选地，所述处理设备23具体可用于通过以下方式从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系：

进一步地，所述处理设备23(具体可为归因计算处理器232)还可用于在以获取到的归因维度、信息投放方以及信息触达方三个维度为键值，对选取到的每一信息触达数据与选取到的信息转化数据中的、与该信息触达数据具备相同键值且对应的信息转化时间不早于该信息触达数据对应的信息触达时间的信息转化数据进行合并之前，过滤选取到的信息触达数据中的未带来转化的信息触达数据。

可选地，所述处理设备23具体可用于通过Bloom Filter过滤选取到的信息触达数据中的未带来转化的信息触达数据。

进一步地，所述处理设备23(具体可为归因计算处理器232)还可用于在从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系之后，且，将筛选出的归因关系作为最终所需的归因计算结果之前，对筛选出的归因关系进行聚合处理。

进一步地，所述处理设备23(具体可为归因计算处理器232)还可用于针对归因计算所需的任一归因参数数据，若根据用户输入的该归因参数数据的唯一性标识信息，确定无法从提供的归因参数数据集合中获取到对应的归因参数数据，则基于用户输入的该归因参数数据的唯一性标识信息，创建相应的自定义归因参数，并将创建的自定义归因参数作为获取到的与用户输入的该归因参数数据的唯一性标识信息相对应的归因参数数据。

进一步地，所述处理设备23(具体可为归因计算处理器232)具体可用于采用分布式计算方式基于获取到的归因参数数据进行归因计算，得到所需的归因计算结果。

其中，所述分布式计算方式包括MapReduce方式。也就是说，此种情况下，如图2所示，归因计算处理器232具体可包括两种处理器，一种为Map处理器31(可为一个或多个，通常为多个)，可用于通过调用获取到的归因函数，从获取到的归因输入数据中选取对应的归因维度为获取到的归因维度的信息触达数据，以及对应的归因维度为获取到的归因维度、且对应的转化行为为获取到的归因输出字段所指示的转化行为的信息转化数据；另一种为Reduce处理器32(可为一个或多个，通常为多个)，可用于通过调用获取到的归因函数，以获取到的归因维度、信息投放方以及信息触达方三个维度为键值，对选取到的每一信息触达数据与选取到的信息转化数据中的、与该信息触达数据具备相同键值且对应的信息转化时间不早于该信息触达数据对应的信息触达时间的信息转化数据进行合并，得到初始归因关系，并基于获取到的归因规则，从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系，并将筛选出的归因关系作为最终所需的归因计算结果。

即，Map处理器31主要用于以用户配置的归因维度作为key(键值)输出信息触达数据和信息转化数据至Reduce处理器32，比如，若归因维度为商品ID，则Map处理器31可输出key(键值)为{商品ID+信息触达用户+信息投放用户+其它(触达数据或转化数据)}的数据至对应的Reduce处理器32；

而Reduce处理器32主要用于将Map处理器31得到的信息触达数据和信息转化数据进行合并，合并的key(键值)为{归因维度+信息触达用户+信息投放用户}，得到数据{触达数据+归因维度+信息触达用户+信息投放用户+转化数据}，这样的数据即可称之为初始归因关系；另外，Reduce处理器32还可用于通过获取到的归因规则，从得到的初始归因关系中筛选出符合获取到的归因规则的归因关系作为最终所需的归因关系。

另外，需要说明的是，本申请所述实施例通常可使用ODPS作为分布式存储和计算平台，不过，在存储上使用HDFS或者HIVE，在分布式计算时使用HADOOP等也能达到一样的效果(即所述存储设备21可为ODPS、HDFS、HIVE等设备)对此不作限定。

最后，需要说明的是，本申请实施例中所涉及到的各处理器可以是中央处理器(CPU)，通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)，现场可编程门阵列(FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

另外，本申请实施例中所涉及到的存储设备21可包括多个存储器，如可包括内存211和外部存储器212，内存211用于暂时存放处理设备23中的运算数据，以及与硬盘等外部存储器212交换的数据，处理设备23通过内存211与外部存储器212进行数据交换。内存211可以为非易失存储器、动态随机存储器、静态随机存储器、Flash闪存等其中之一；外部存储器212可以为硬盘、光盘、USB盘、软盘或磁带机等。

再有，本领域普通技术人员可以理解，本申请实施例中的输入设备22、处理设备23以及存储设备21之间可通过图2中所示的总线20通信相连；且，图2所示的结构仅为示意，其并不对归因系统的结构造成限定。例如，该归因系统还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置等。

由本申请实施例所述的上述内容可知，本申请实施例所述方案可提供一种可隔离各种归因业务且对用户完全透明的通用的归因框架，使得用户只需要根据实际需求对其进行相应的数据配置即可实现不同的归因模型、应用于不同的归因业务，而无须了解相关编程方法，从而可以在大为节约技术开发成本的基础上，提高归因系统的可扩展性。

另外，由于本申请实施例所述方案可通过配置归因逻辑、归因函数等来简化归因场景，将归因系统设计为一层Map-Reduce计算框架，因而，还会大为减少多层Map-Reduce造成的I/O落地成本，进一步提高系统的处理效率。

本领域技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种对投放信息的数据进行归因的方法，其特征在于，应用于信息投放，包括：

提供包括至少一类归因参数数据的归因参数数据集合；其中，所述归因参数包括以下类别：归因输入数据、归因输出字段、归因函数、归因维度以及归因规则，且，所述归因输入数据包括信息触达数据以及信息转化数据；所述信息触达数据是指投放的信息被触及后产生的，所述信息转化数据是指被触及的信息被转化后产生的；

根据所述归因计算所需归因参数数据的唯一性标识信息，从提供的归因参数数据集合中获取与所述归因计算所需归因参数数据的唯一性标识信息相对应的归因参数数据；

以获取到的归因维度、信息投放方以及信息触达方三个维度为键值，对选取到的每一信息触达数据与选取到的信息转化数据中的、与该信息触达数据具备相同键值且对应的信息转化时间不早于该信息触达数据对应的信息触达时间的信息转化数据进行合并，得到初始归因关系；以及，

基于获取到的归因规则，从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系，并将筛选出的归因关系作为最终所需的归因计算结果。

2.如权利要求1所述的归因方法，其特征在于，从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系，包括：

3.如权利要求1所述的归因方法，其特征在于，在以获取到的归因维度、信息投放方以及信息触达方三个维度为键值，对选取到的每一信息触达数据与选取到的信息转化数据中的、与该信息触达数据具备相同键值且对应的信息转化时间不早于该信息触达数据对应的信息触达时间的信息转化数据进行合并之前，所述方法还包括：

过滤选取到的信息触达数据中的未带来转化的信息触达数据。

4.如权利要求3所述的归因方法，其特征在于，过滤选取到的信息触达数据中的未带来转化的信息触达数据，包括：

通过布隆过滤器Bloom Filter过滤选取到的信息触达数据中的未带来转化的信息触达数据。

5.如权利要求1所述的归因方法，其特征在于，在从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系之后，且，将筛选出的归因关系作为最终所需的归因计算结果之前，所述方法还包括：

对筛选出的归因关系进行聚合处理。

6.如权利要求1所述的归因方法，其特征在于，所述方法还包括：

针对归因计算所需的任一归因参数数据，若根据用户输入的该归因参数数据的唯一性标识信息，确定无法从提供的归因参数数据集合中获取到对应的归因参数数据，则基于用户输入的该归因参数数据的唯一性标识信息，创建相应的自定义归因参数，并将创建的自定义归因参数作为获取到的与用户输入的该归因参数数据的唯一性标识信息相对应的归因参数数据。

7.如权利要求1所述的归因方法，其特征在于，基于获取到的归因参数数据进行归因计算，得到归因计算结果，包括：

采用分布式计算方式基于获取到的归因参数数据进行归因计算，得到所需的归因计算结果。

8.如权利要求7所述的归因方法，其特征在于，所述分布式计算方式包括映射归约MapReduce方式。

9.如权利要求1所述的归因方法，其特征在于，接收用户输入的归因参数配置数据，包括：

基于可扩展标记语言XML接口接收用户输入的归因参数配置数据。

10.一种对投放信息的数据进行归因的系统，其特征在于，应用于信息投放，包括：

存储设备，用于提供包括至少一类归因参数数据的归因参数数据集合；其中，所述归因参数包括以下类别：归因输入数据、归因输出字段、归因函数、归因维度以及归因规则，且，所述归因输入数据包括信息触达数据以及信息转化数据；所述信息触达数据是指投放的信息被触及后产生的，所述信息转化数据是指被触及的信息被转化后产生的；

处理设备，用于根据所述输入设备接收到的所述归因计算所需归因参数数据的唯一性标识信息，从所述存储设备提供的归因参数数据集合中获取与所述归因计算所需归因参数数据的唯一性标识信息相对应的归因参数数据，并基于获取到的归因参数数据进行归因计算，得到归因计算结果；

所述处理设备，具体用于通过调用获取到的归因函数，执行以下操作：从获取到的归因输入数据中选取对应的归因维度为获取到的归因维度的信息触达数据，以及对应的归因维度为获取到的归因维度、且对应的转化行为为获取到的归因输出字段所指示的转化行为的信息转化数据；并

11.如权利要求10所述的归因系统，其特征在于，

所述处理设备，具体用于通过以下方式从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系：

12.如权利要求10所述的归因系统，其特征在于，

所述处理设备，还用于在以获取到的归因维度、信息投放方以及信息触达方三个维度为键值，对选取到的每一信息触达数据与选取到的信息转化数据中的、与该信息触达数据具备相同键值且对应的信息转化时间不早于该信息触达数据对应的信息触达时间的信息转化数据进行合并之前，过滤选取到的信息触达数据中的未带来转化的信息触达数据。

13.如权利要求12所述的归因系统，其特征在于，

所述处理设备，具体用于通过布隆过滤器Bloom Filter过滤选取到的信息触达数据中的未带来转化的信息触达数据。

14.如权利要求10所述的归因系统，其特征在于，

所述处理设备，还用于在从所述初始归因关系中筛选出符合所述获取到的归因规则的归因关系之后，且，将筛选出的归因关系作为最终所需的归因计算结果之前，对筛选出的归因关系进行聚合处理。

15.如权利要求10所述的归因系统，其特征在于，

所述处理设备，还用于针对归因计算所需的任一归因参数数据，若根据用户输入的该归因参数数据的唯一性标识信息，确定无法从提供的归因参数数据集合中获取到对应的归因参数数据，则基于用户输入的该归因参数数据的唯一性标识信息，创建相应的自定义归因参数，并将创建的自定义归因参数作为获取到的与用户输入的该归因参数数据的唯一性标识信息相对应的归因参数数据。

16.如权利要求10所述的归因系统，其特征在于，

所述处理设备，具体用于采用分布式计算方式基于获取到的归因参数数据进行归因计算，得到所需的归因计算结果。

17.如权利要求16所述的归因系统，其特征在于，所述分布式计算方式包括映射归约MapReduce方式。

18.如权利要求10所述的归因系统，其特征在于，

所述输入设备，具体用于基于可扩展标记语言XML接口接收用户输入的归因参数配置数据。