CN105023170A

CN105023170A - 一种点击流数据的处理方法及装置

Info

Publication number: CN105023170A
Application number: CN201510362329.7A
Authority: CN
Inventors: 李超
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2015-11-04

Abstract

本发明公开了一种点击流数据的处理方法及装置，其中该方法包括:获取点击流数据；根据所述点击流数据，生成原始训练数据；对该原始训练数据进行聚合，得到第一聚合训练数据；在预设的第一时间间隔内对得到的第一聚合训练数据进行存储；基于存储的第一聚合训练数据进行点击率预估模型训练。本发明实施例在生成原始训练数据的过程中，基于点击流数据生成的训练数据进行聚合处理，并对得到的聚合训练数据进行存储以及模型训练，可以避免信息的冗余，减少了数据的存储消耗，进而，在模型训练过程中可以使用到更长时间范围的数据，提升模型质量。

Description

一种点击流数据的处理方法及装置

技术领域

本发明属于计算技术领域，尤其涉及一种点击流数据的处理方法及装置。

背景技术

在线广告的点击率预估在广告投放过程中起着重要的作用，其点击率预估模型的建立依赖于在线广告投放的历史数据。由于目前在线广告中面向的用户与广告订单变化快速，因此，在线广告点击率预估模型的快速更新也显得尤为重要。

近年来，流式数据处理系统在大数据领域应用的普及，为海量数据的实时处理提供了新的解决方案。例如，现有一种基于流式数据处理系统的在线分析点击流数据的方法，可从广告业务服务器接入广告点击流数据，提取点击流数据中相关有效信息，生成广告点击率预估模型所需的训练数据，其后会直接使用该训练数据训练点击率预估模型。其中，点击流数据是指展示广告的每一次曝光、点击、转化等行为被网络服务器记录在日志中时产生的流式数据。

在对现有技术的研究和实践过程中，本发明的发明人发现，随着在线广告市场的持续发展，广告相关的点击流数据也在持续增长。在海量的点击流数据中，在有效信息提取后，仍存有大量的信息冗余，如在同一段时间内，有很多相同年龄、相同性别的人在同一个广告位看到相同的广告，若将这些数据记录为多条，则会造成信息冗余，从而导致存储资源与后续模型计算资源的浪费。

发明内容

本发明的目的在于提供一种点击流数据的处理方法及装置，旨在减少存储资源与模型计算资源的浪费。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种点击流数据的处理方法，其中包括：

获取点击流数据；

根据所述点击流数据，生成原始训练数据；

对所述原始训练数据进行聚合，得到第一聚合训练数据；

在预设的第一时间间隔内对得到的第一聚合训练数据进行存储；

基于存储的第一聚合训练数据进行点击率预估模型训练。

为解决上述技术问题，本发明实施例还提供以下技术方案：

一种点击流数据的处理装置，其中包括：

获取单元，用于获取点击流数据；

生成单元，用于根据所述点击流数据，生成原始训练数据；

聚合单元，用于对所述原始训练数据进行聚合，得到第一聚合训练数据；

存储单元，用于在预设的第一时间间隔内对得到的第一聚合训练数据进行存储；

训练单元，用于基于存储的第一聚合训练数据进行点击率预估模型训练。

相对于现有技术，本实施例，根据获取到的点击流数据，生成原始训练数据，并对该原始训练数据进行聚合处理，得到第一聚合训练数据；其后在预设的第一时间间隔内对得到的第一聚合训练数据进行存储，并利用第一聚合训练数据进行点击率预估模型训练；本发明实施例，在生成原始训练数据的过程中，基于点击流数据生成的训练数据进行聚合处理，并利用得到的聚合训练数据进行存储以及模型训练，可以避免信息的冗余，减少了数据的存储消耗，进而，在模型训练过程中可以使用到更长时间范围的数据，提升模型质量。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其它有益效果显而易见。

图1a是本发明提供的点击流数据的处理方法的场景示意图；

图1b为本发明第一实施例提供的点击流数据的处理方法的流程示意图；

图2a为本发明第二实施例提供的点击流数据的处理方法的流程示意图；

图2b为本发明第二实施例提供的点击流数据的处理方法中数据聚合的流程示意图；

图2c为本发明第二实施例提供的点击流数据的处理方法中数据聚合示意图；

图2d为本发明第二实施例提供的点击流数据的处理方法中数据聚合的另一流程示意图；

图3a为本发明第三实施例提供的点击流数据的处理装置的结构示意图；

图3b为本发明第三实施例提供的点击流数据的处理装置的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明实施例提供一种点击流数据的处理方法以及装置。

参见图1a，为该点击流数据的处理方法的场景示意图，该点击流数据的处理方法可应用于广告点击率预估模型的训练系统，该系统可以包括点击流数据的处理装置，该点击流数据的处理装置可集成在服务器或网关等网络设备中，主要用于获取点击流数据，根据获取到的点击流数据，生成原始训练数据，比如根据点击流数据中的关键信息生成原始训练数据；其后，对原始训练数据进行聚合，得到第一聚合训练数据，在预设的第一时间间隔内对得到的第一聚合训练数据进行存储，即可以在一时间窗内(如10分钟或20分钟等)对第一聚合训练数据一并存储，以解决了针对由点击流数据生成的原始训练数据的信息冗余的问题；最后，可以基于存储的第一聚合训练数据进行点击率预估模型训练，比如基于第一聚合训练数据，对逻辑回归LR等线性模型进行广告点击率建模，以通过训练得到的模型进行广告的点击率预估，等等。

此外，该点击流数据的处理系统还可以包括多个广告业务服务器，主要用于向点击流数据的处理装置提供点击流数据；当然，该训练数据的模型训练系统还可以包括在线存储服务器(如可基于分布式存储系统)、广告投放装置以及终端等，其中在线存储服务器主要用于对训练数据、广告发布的有关信息等进行存储，广告投放装置主要用于根据训练结果和广告发布的有关信息等进行广告投放，终端主要用于向用户展示投放的广告等。

以下将分别进行详细说明。

第一实施例

在本实施例中，将从点击流数据的处理装置的角度进行描述，该点击流数据的处理装置具体可以集成在服务器或网关等网络设备中。

一种点击流数据的处理方法，包括获取点击流数据；根据点击流数据，生成原始训练数据；对上述原始训练数据进行聚合，得到第一聚合训练数据；在预设的第一时间间隔内对得到的第一聚合训练数据进行存储；基于存储的第一聚合训练数据进行点击率预估模型训练。

请参阅图1b，图1b是本发明第一实施例提供的点击流数据的处理方法的流程示意图。所述方法包括：

在步骤S101中，获取点击流数据。

在步骤S102中，根据上述点击流数据，生成原始训练数据。

其中，所述步骤S101与步骤S102可具体为：

本发明实施例中，点击流数据是指推广信息(如展示广告)的每一次曝光、点击、转化等行为都会被网络服务器记录在日志中产生的流式数据。

比如，“根据点击流数据，生成原始训练数据”可具体包括：

(a)提取上述点击流数据中的关键信息；

(b)根据上述关键信息生成原始训练数据。

比如，在计算广告学上，上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱等)等，当然关键信息还可包括其它一些关键信息。

可以理解的是，原始训练数据中的一条训练数据可认为是聚合了包括关键信息在内的多种信息的一个信息聚合体。

又比如，可将提取到的上述点击流数据中包含的关键信息写入缓冲区之中，在从缓冲区之中读取到上述关键信息之后，利用上述关键信息生成广告投放预测模型的训练数据，等等。

在步骤S103中，对该原始训练数据进行聚合，得到第一聚合训练数据。

在步骤S104中，在预设的第一时间间隔内对得到的第一聚合训练数据进行存储。

其中，所述步骤S103与步骤S104可具体为：

由于原始训练数据重复性高，因此此处采用数据聚合的方式，将原始训练数据进行聚合，得到第一聚合训练数据；其中，数据聚合是指将相同内容的多份数据聚合，只保留一份数据副本的数据处理方法。

也就是说，在生成原始训练数据的过程中，首先将原始训练数据中重复的训练数据做聚合，只保留一份训练数据的副本，并将这些保留的训练数据的副本收集并确定为第一聚合训练数据，并进行保存，以供后续模型训练使用，这样经过数据聚合可以有效的减少数据存储空间。

比如，具体的，可以通过一个哈希表来实现原始训练数据的聚合。该哈希表存储的数据结构包含原始训练数据中训练数据的具体内容以及对应的聚合后训练数据数量两部分。该训练数据结构的哈希值只与训练数据的具体内容相关，而与数据数量无关。

进一步的，将原始训练数据进行聚合之后，在预设的第一时间间隔内对得到的第一聚合训练数据进行存储，如存储在基于分布式存储的在线存储服务器中；其中，该第一时间间隔可以是10分钟或20分钟等等，其可以由预设参数确定的，或可以是根据用户指令确定的，或可以是通过其他方式确定，此处不作具体限定。

在步骤S105中，基于存储的第一聚合训练数据进行点击率预估模型训练。

在一种实施方式中，“基于存储的第一聚合训练数据进行点击率预估模型训练”可以包括：

(1)接收模型训练的请求；

(2)根据该请求，利用存储的第一聚合训练数据进行点击率预估模型训练。

也就是说，在生成原始训练数据的过程中，将原始训练数据中重复的训练数据做聚合，将得到的第一聚合训练数据确定为需要用来进行点击率预估模型训练的训练数据；在接收到模型训练的请求时，根据该请求，直接利用第一聚合训练数进行点击率预估模型训练。

在另一种实施方式中，“基于存储的第一聚合训练数据进行点击率预估模型训练”可以包括：

①接收模型训练的请求；

②根据该请求，获取在预设的第二时间间隔内存储的第一聚合训练数据；

其中该第二时间间隔大于第一时间间隔；

比如，第一时间间隔为10分钟，则该第二时间间隔可以为40分钟；具体的，每10分钟将得到的第一聚合训练数据进行存储，当接收到模型训练的请求时，根据该请求获取离当前相隔40分钟内存储的第一聚合训练数据。

③对第一聚合训练数据进行聚合，得到第二聚合训练数据；

④利用第二聚合训练数据进行点击率预估模型训练。

也就是说，在生成原始训练数据的过程中，将原始训练数据中重复的训练数据做了首次聚合；在进行模型训练的过程中，对首次聚合得到的第一聚合训练数据进行聚合，得到第二聚合训练数据，即基于两步聚合，得到需要用来进行点击率预估模型训练的训练数据，从而达到训练数据的无损压缩数据处理，提升了模型质量。

可以理解的是，基于存储的第一聚合训练数据进行点击率预估模型训练之后，可以计算出点击率预估模型，并利用该点击率预估模型进行(广告)点击率预估(PCTR，Predict Click-Through Rate)等。

容易想到的是，本发明提及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。

由上述可知，本实施例提供的点击流数据的处理方法，根据获取到的点击流数据，生成原始训练数据，并对该原始训练数据进行聚合处理，得到第一聚合训练数据；其后在预设的第一时间间隔内对得到的第一聚合训练数据进行存储，并利用第一聚合训练数据进行点击率预估模型训练；本发明实施例，在生成原始训练数据的过程中，基于点击流数据生成的训练数据进行聚合处理，并利用得到的聚合训练数据进行存储以及模型训练，可以避免信息的冗余，减少了数据的存储消耗，进而，在模型训练过程中可以使用到更长时间范围的数据，提升模型质量。

第二实施例

根据第一实施例所描述的方法，以下将举例作进一步详细说明。

请参阅图2a，图2a为本发明第二实施例提供的点击流数据的处理方法的流程示意图。所述方法包括：

在步骤S201中，获取点击流数据。

在步骤S202中，提取上述点击流数据中的关键信息，并根据上述关键信息生成原始训练数据。

其中，所述步骤S201与步骤S202可具体为：

可以理解的是，在计算广告学上，点击流数据是指展示广告的每一次曝光、点击、转化等行为都会被网络服务器记录在日志中产生的流式数据；上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱等)等，当然关键信息还可包括其它一些关键信息。

本发明实施例中，原始训练数据中的一条训练数据可认为是聚合了包括关键信息在内的多种信息的一个信息聚合体。

比如，“根据上述关键信息生成原始训练数据”具体实现可如下：

调用流式计算拓扑，以上述关键信息为索引，在在线存储服务器中查找出与上述关键信息匹配的属性信息和特征信息；利用上述关键信息、上述属性信息和上述特征信息，生成原始训练数据；

又比如，可按照预设的聚合规则将上述关键信息、上述属性信息和上述特征信息进行聚合以得到原始训练数据等等，此处对原始训练数据的生成不作具体限定。

在步骤S203中，对上述原始训练数据进行聚合，得到第一聚合训练数据。

即在生成原始训练数据的过程中，将原始训练数据中重复的训练数据做了首次聚合；具体的，可以通过一个哈希表来实现原始训练数据的聚合。该哈希表存储的数据结构包含原始训练数据中训练数据的具体内容(如关键信息)以及对应的聚合后训练数据数量两部分。该训练数据结构的哈希值只与训练数据的具体内容相关，而与数据数量无关。

比如，如图2b所示，“对上述原始训练数据进行聚合，得到第一聚合训练数据”可以具体包括：

S2031、从原始训练数据中依次提取训练数据；

S2032、根据上述关键信息计算提取的训练数据的哈希值；

S2033、判断预设的哈希表是否存储有该哈希值指示的训练数据；

上述哈希表包含训练数据的内容及聚合的训练数据数量；

根据判断结果分别执行步骤S2034或步骤S2035；

S2034、若是，则在上述哈希表中获取到对应的训练数据，并对对应的聚合的训练数据数量进行更新；

S2035、若否，则将该哈希值指示的训练数据加入哈希表，并记录对应的聚合的训练数据数量为1；

也就是说，如图2b所示，当提取一条训练数据时，先计算其哈希值，判断是否已经在哈希表中存有该训练数据。若该训练数据并未存在于哈希表中，说明其为新的训练数据，将其加入哈希表中，并记其数据条数为1；若该训练数据存在于哈希表中，说明训练数据为重复的训练数据，根据对应的哈希值找到哈希表中的存储对象，并将对应的数据条数在原有基础上加1，直至确定原始训练数据中的训练数据全部提取完成，从而完成对原始训练数据聚合处理。

S2036、确定上述原始训练数据是否全部提取完成；

如果在执行完S2034或S2035后确定出上述原始训练数据还未全部提取完成，则返回执行从原始训练数据中依次提取训练数据的步骤(即S2031)，直至确定原始训练数据全部提取完成。

S2037、在确定上述原始训练数据全部提取完成时，将哈希表中存储有的训练数据确定为第一聚合训练数据。

比如，以图2c所示聚合过程为例，根据训练数据的关键信息(如年龄A、性别G)计算训练数据的哈希值，首先在时间窗1中，获取到4个训练数据，假设当前提取的训练数据关键信息为“A1、G1”，由于该训练数据并未存在于哈希表中，因此将“A1、G1”写入哈希表，并将其数据条数为记录为1，依此方式依次对训练数据提取判断，假设当前再次提取的训练数据关键信息为“A1、G1”，由于该训练数据存在于哈希表中，因此根据对应的哈希值找到哈希表中的存储对象，在原有的数据条数1基础上加1，即将该数据条数记录为2，直至确定4个训练数据全部提取完成，从而完成在时间窗1中原始训练数据聚合处理(即完成第一步聚合)；同样的，在时间窗2中，获取到5个训练数据，并采用同样的方法对训练数据进行聚合，并记录对应的聚合的训练数据条数。

在某些实施方式中，如图2d所示，“对原始训练数据进行聚合，得到第一聚合训练数据”的步骤可以包括：

S203a、获取上述原始训练数据中所有训练数据；

S203b、根据上述关键信息对应计算原始训练数据中训练数据的哈希值；

S203c、对具有相同哈希值的训练数据分别进行聚合，得到第一聚合训练数据；

S203d、统计具有相同哈希值的训练数据的数量并记录。

区别于上述利用哈希值对原始训练数据中的训练数据进行逐一判断的方法，该方式将原始训练数据中训练数据的哈希值进行统一比较，如果哈希值相同的，就可以认为对应的训练数据为重复的训练数据，将它们进行聚合，从而得到第一聚合训练数据，判断过程中，还可以将具有相同哈希值的训练数据的数量进行统计与记录。

在步骤S204中，在预设的第一时间间隔内对得到的第一聚合训练数据进行存储。

进一步的，在预设的第一时间间隔内对得到的第一聚合训练数据进行存储，如存储在基于分布式存储的在线存储服务器中；其中，该第一时间间隔可以是10分钟或20分钟等等，其可以由预设参数确定的，或可以是根据用户指令确定的，或可以是通过其他方式确定，此处不作具体限定。

比如，在第一步聚合(即步骤S203和步骤S204)中，对同一个时间窗(如10分钟)内的点击流数据进行一次聚合(即对原始训练数据的聚合)，仅保留每条训练数据所需要的关键字段信息与该条训练数据经过聚合后的数据条数，并将训练数据批量地写入分布式存储，这样就完成了一个时间窗内的工作，接下去再开始下一个时间窗的工作。在同一个时间窗内，所有训练数据都是记录在计算机的内存中的，所以方便对这批训练数据做聚合操作。

优选的，为了更好的减小数据的存储消耗，提升模型质量，可以在模型训练之前，对载入的训练数据进行再次聚合操作，如下：

在步骤S205中，接收模型训练的请求。

在步骤S206中，根据该请求，获取在预设的第二时间间隔内存储的第一聚合训练数据，该第二时间间隔大于前述第一时间间隔。

在步骤S207中，对获取到的第一聚合训练数据进行聚合，得到第二聚合训练数据。

其中，所述步骤S205至步骤S207可具体为：

在模型训练载入训练数据(第一聚合训练数据)时，模型训练程序从大时间窗内读入包含多个时间周期的训练数据时，再依照前述第一步聚合的方法进行一次数据聚合，即第二步聚合(步骤S206和步骤S207)。具体的，可以通过一个哈希表来实现原始训练数据的聚合。该哈希表存储的数据结构包含原始训练数据中训练数据的具体内容以及对应的聚合后训练数据数量两部分。该训练数据结构的哈希值只与训练数据的具体内容相关，而与数据数量无关。

在一种实施方式中，“对获取到的第一聚合训练数据进行聚合，得到第二聚合训练数据”可以具体包括：

第一步，从第一聚合训练数据中依次提取训练数据；

第二步，根据关键信息计算提取的训练数据的哈希值；

第三步，判断预设的哈希表是否存储有该哈希值指示的训练数据，该哈希表包含训练数据的内容及聚合的训练数据数量；根据判断结果分别执行第四步或第五步；

第四步，若是，则在该哈希表中获取到对应的训练数据，并对对应的聚合的训练数据数量进行更新，并返回执行从第一聚合训练数据中依次提取训练数据的步骤，直至确定第一聚合训练数据中的训练数据全部提取完成；

第五步，若否，则将该哈希值指示的训练数据加入哈希表，并记录对应的聚合的训练数据数量，并返回执行从第一聚合训练数据中依次提取训练数据的步骤，直至确定第一聚合训练数据中的训练数据全部提取完成；

第六步，确定第一聚合训练数据中的训练数据全部提取完成时，将上述哈希表中存储有的训练数据确定为第二聚合训练数据。

也就是说，当从第一聚合训练数据中提取一条训练数据时，先计算其哈希值，判断是否已经在哈希表中存有该训练数据。若该训练数据并未存在于哈希表中，说明其为新的训练数据，将其加入哈希表中，并记其聚合的数据条数；若该训练数据存在于哈希表中，说明训练数据为重复的训练数据，根据对应的哈希值找到哈希表中的存储对象，并将对应的数据条数在原有基础上进行累加，直至确定第一聚合训练数据中的训练数据全部提取完成，从而完成对第一聚合训练数据的聚合处理。

可具体的，以图2c所示聚合过程为例，首先获取在预设的第二时间间隔(如时间窗1和时间窗2)内存储的第一聚合训练数据，根据训练数据的关键信息(如年龄A、性别G)计算训练数据的哈希值，假设当前提取在时间窗1存储的训练数据，且对应的关键信息为“A1、G1”，由于该训练数据并未存在于哈希表中，因此将“A1、G1”以及该训练数据携带的聚合数据数量2一并写入哈希表，其中，该训练数据携带的聚合数据数量为在第一步聚合过程中记录的聚合的数据条数；依此方式依次对训练数据提取判断，假设当前提取在时间窗2存储的训练数据，其对应的关键信息为“A1、G1”，由于该训练数据存在于哈希表中，因此根据对应的哈希值找到哈希表中的存储对象，在原有的数据条数2基础上加1，即将该数据条数记录为3，直至确定时间窗1和2存储的训练数据全部提取完成，从而完成在第二时间间隔中第一聚合训练数据的聚合处理。

可以理解的是，优选的，在第二步聚合的过程中，可以直接从第一步聚合的结果中直接获取到哈希值，不需重新根据关键信息进行计算，从而可以提高数据处理效率，加快第二步聚合的效率。

在另一种实施方式中，“对获取到的第一聚合训练数据进行聚合，得到第二聚合训练数据”可以具体包括：

(一)获取上述第一聚合训练数据中所有训练数据；

(二)根据关键信息对应计算上述第一聚合训练数据中训练数据的哈希值；

(三)对具有相同哈希值的训练数据分别进行聚合，得到第二聚合训练数据；

(四)统计具有相同哈希值的训练数据的数量并记录。

区别于上述利用哈希值对第一聚合训练数据中的训练数据进行逐一判断的方法，该方式将第一聚合训练数据中的训练数据的哈希值进行统一比较，如果哈希值相同的，就可以认为对应的训练数据为重复的训练数据，将它们进行聚合，从而得到第二聚合训练数据，判断过程中，还可以将具有相同哈希值的训练数据的数量进行统计与记录。

优选的，在第二步的聚合过程中，可通过前述哈希值计算方法，直接使用分布式处理框架的MapReduce操作来实现。在Map阶段中，读入每条训练数据样本，计算其哈希值；在Reduce阶段，将相同哈希值的训练数据条数进行累加，该方式通过分布式处理框架实现数据聚合，可以进一步加速计算过程。

在步骤S208中，利用上述第二聚合训练数据进行点击率预估模型训练。

比如，在广告界内由于线性模型求解较为迅速，可以在一定程度上防止对数据的过度拟合等，因此通常使用逻辑回归(LR，Logistic Regression)模型进行广告点击率建模。

可以理解的是，利用上述第二聚合训练数据进行点击率预估模型训练之后，可以计算出点击率预估模型，并利用该点击率预估模型进行(广告)点击率预估等。

第三实施例

为便于更好的实施本发明实施例提供的点击流数据的处理方法，本发明实施例还提供一种基于上述点击流数据的处理方法的装置。其中名词的含义与上述点击流数据的处理的方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3a，图3a为本发明实施例提供的点击流数据的处理装置的结构示意图，该点击流数据的处理装置可以包括获取单元301、生成单元302、聚合单元303、存储单元304以及训练单元305，如下：

其中获取单元301，用于获取点击流数据；生成单元302，用于根据所述点击流数据，生成原始训练数据。

比如，上述生成单元302，可以具体用于提取所述点击流数据中的关键信息，根据所述关键信息生成原始训练数据。

在计算广告学上，上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱等)等，当然关键信息还可包括其它一些关键信息。

该聚合单元303，用于对所述原始训练数据进行聚合，得到第一聚合训练数据；该存储单元304，用于在预设的第一时间间隔内对得到的第一聚合训练数据进行存储；

该训练单元305，用于基于存储的第一聚合训练数据进行点击率预估模型训练。

在一种实施方式中，该训练单元305，可以包括：

(1)第一接收子单元，用于接收模型训练的请求；

(2)第一训练子单元，用于根据所述请求，对所述第一聚合训练数据进行点击率预估模型训练。

在另一种实施方式中，如图3b所示，上述训练单元305，可以包括：

①第二接收子单元3051，用于接收模型训练的请求；

②第一获取子单元3052，用于根据所述请求，获取在预设的第二时间间隔内存储的第一聚合训练数据，其中第二时间间隔大于第一时间间隔；

则该聚合单元303，用于对第一聚合训练数据进行聚合，得到第二聚合训练数据；

③第二训练子单元3053，用于利用第二聚合训练数据进行点击率预估模型训练。

可具体的，本发明实施例中，可以通过一个哈希表来实现原始训练数据的聚合。该哈希表存储的数据结构包含原始训练数据中训练数据的具体内容以及对应的聚合后训练数据数量两部分。该训练数据结构的哈希值只与训练数据的具体内容相关，而与数据数量无关。

比如，聚合单元303用于“对原始训练数据进行聚合，得到第一聚合训练数据”时，在一种实施方式下，该聚合单元303可以包括：

第一提取子单元，用于从原始训练数据中依次提取训练数据；第一计算子单元，用于根据上述关键信息计算提取的训练数据的哈希值；

第一判断子单元，用于判断预设的哈希表是否存储有所述哈希值指示的训练数据，该哈希表包含训练数据的内容及聚合的训练数据数量；

第一更新控制单元，用于若是，则在上述哈希表中获取到对应的训练数据，并对对应的聚合的训练数据数量进行更新，并返回执行从原始训练数据中依次提取训练数据的步骤，直至确定原始训练数据全部提取完成；

第一记录控制单元，用于若否，则将该哈希值指示的训练数据加入哈希表，并记录对应的聚合的训练数据数量为1，并返回执行从原始训练数据中依次提取训练数据的步骤，直至确定原始训练数据全部提取完成；

第一确定子单元，用于确定所述原始训练数据全部提取完成时，将所述哈希表中存储有的训练数据确定为第一聚合训练数据。

也就是说，当提取一条训练数据时，先计算其哈希值，判断是否已经在哈希表中存有该训练数据。若该训练数据并未存在于哈希表中，说明其为新的训练数据，将其加入哈希表中，并记其数据条数为1；若该训练数据存在于哈希表中，说明训练数据为重复的训练数据，根据对应的哈希值找到哈希表中的存储对象，并将对应的数据条数在原有基础上加1，直至确定原始训练数据中的训练数据全部提取完成，从而完成对原始训练数据聚合处理。

又比如，聚合单元303用于“对原始训练数据进行聚合，得到第一聚合训练数据”时，在另一种实施方式下，该聚合单元303可以包括：

第二获取子单元，用于获取原始训练数据中所有训练数据；

第二计算子单元，用于根据上述关键信息对应计算所述原始训练数据中训练数据的哈希值；

第一聚合子单元，用于对具有相同哈希值的训练数据分别进行聚合，得到第一聚合训练数据；

第一统计子单元，用于统计具有相同哈希值的训练数据的数量并记录。

进一步的，在进行第二步聚合时，可以采用前述哈希值计算方法实现数据聚合，比如，当聚合单元303用于“对获取到的第一聚合训练数据进行聚合，得到第二聚合训练数据”时，在一种实施方式下，该聚合单元303可以包括：

第二提取子单元，用于从第一聚合训练数据中依次提取训练数据；

第三计算子单元，用于根据关键信息计算提取的训练数据的哈希值；

第二判断子单元，用于判断预设的哈希表是否存储有该哈希值指示的训练数据，该哈希表包含训练数据的内容及聚合的训练数据数量；

第二更新控制单元，用于若是，则在该哈希表中获取到对应的训练数据，并对对应的聚合的训练数据数量进行更新，并返回执行从第一聚合训练数据中依次提取训练数据的步骤，直至确定第一聚合训练数据中的训练数据全部提取完成；

第二记录控制单元，用于若否，则将该哈希值指示的训练数据加入哈希表，并记录对应的聚合的训练数据数量，并返回执行从第一聚合训练数据中依次提取训练数据的步骤，直至确定第一聚合训练数据中的训练数据全部提取完成；

第二确定子单元，用于确定第一聚合训练数据中的训练数据全部提取完成时，将上述哈希表中存储有的训练数据确定为第二聚合训练数据。

又比如，当聚合单元303用于“对获取到的第一聚合训练数据进行聚合，得到第二聚合训练数据”时，在另一种实施方式下，该聚合单元303可以包括：

第三获取子单元，用于获取所述第一聚合训练数据中所有训练数据；

第四计算子单元，用于根据所述关键信息对应计算所述第一聚合训练数据中训练数据的哈希值；

第二聚合子单元，用于对具有相同哈希值的训练数据分别进行聚合，得到第二聚合训练数据；

第二统计子单元，用于统计具有相同哈希值的训练数据的数量并记录。

可以理解的是，可利用计算出的点击率预估模型，进行(广告)点击率预估等，其中，该预估过程可参照现有的方式进行实现，此处不作具体限定。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

该点击流数据的处理装置具体可以集成在服务器或网关等网络设备中。

由上述可知，本实施例提供的点击流数据的处理装置，根据获取到的点击流数据，生成原始训练数据，并对该原始训练数据进行聚合处理，得到第一聚合训练数据；其后在预设的第一时间间隔内对得到的第一聚合训练数据进行存储，并利用第一聚合训练数据进行点击率预估模型训练；本发明实施例，在生成原始训练数据的过程中，基于点击流数据生成的训练数据进行聚合处理，并利用得到的聚合训练数据进行存储以及模型训练，可以避免信息的冗余，减少了数据的存储消耗，进而，在模型训练过程中可以使用到更长时间范围的数据，提升模型质量。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对点击流数据的处理方法的详细描述，此处不再赘述。

本发明实施例提供的所述点击流数据的处理装置，譬如为计算机、平板电脑、具有触摸功能的手机等等，所述点击流数据的处理装置与上文实施例中的点击流数据的处理方法属于同一构思，在所述点击流数据的处理装置上可以运行所述点击流数据的处理方法实施例中提供的任一方法，其具体实现过程详见所述点击流数据的处理方法实施例，此处不再赘述。

需要说明的是，对本发明所述点击流数据的处理方法而言，本领域普通测试人员可以理解实现本发明实施例所述点击流数据的处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在终端的存储器中，并被该终端内的至少一个处理器执行，在执行过程中可包括如所述点击流数据的处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，ReadOnly Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本发明实施例的所述点击流数据的处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本发明实施例所提供的一种点击流数据的处理方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种点击流数据的处理方法，其特征在于，包括：

获取点击流数据；

根据所述点击流数据，生成原始训练数据；

对所述原始训练数据进行聚合，得到第一聚合训练数据；

基于存储的第一聚合训练数据进行点击率预估模型训练。

2.根据权利要求1所述的点击流数据的处理方法，其特征在于，所述基于存储的第一聚合训练数据进行点击率预估模型训练，包括：

接收模型训练的请求；

根据所述请求，利用所述第一聚合训练数据进行点击率预估模型训练。

3.根据权利要求1所述的点击流数据的处理方法，其特征在于，所述基于存储的第一聚合训练数据进行点击率预估模型训练，包括：

接收模型训练的请求；

根据所述请求，获取在预设的第二时间间隔内存储的所述第一聚合训练数据，所述第二时间间隔大于所述第一时间间隔；

对所述第一聚合训练数据进行聚合，得到第二聚合训练数据；

利用所述第二聚合训练数据进行点击率预估模型训练。

4.根据权利要求1至3任一项所述的点击流数据的处理方法，其特征在于，所述根据所述点击流数据，生成原始训练数据，包括：

提取所述点击流数据中的关键信息；

根据所述关键信息生成原始训练数据。

5.根据权利要求4所述的点击流数据的处理方法，其特征在于，所述对所述原始训练数据进行聚合，得到第一聚合训练数据，包括：

从原始训练数据中依次提取训练数据；

根据所述关键信息计算提取的训练数据的哈希值；

判断预设的哈希表是否存储有所述哈希值指示的训练数据，所述哈希表包含训练数据的内容及聚合的训练数据数量；

若是，则在所述哈希表中获取到对应的训练数据，并对对应的聚合的训练数据数量进行更新，并返回执行从原始训练数据中依次提取训练数据的步骤，直至确定所述原始训练数据全部提取完成；

若否，则将所述哈希值指示的训练数据加入哈希表，并记录对应的聚合的训练数据数量为1，并返回执行从原始训练数据中依次提取训练数据的步骤，直至确定所述原始训练数据全部提取完成；

确定所述原始训练数据全部提取完成时，将所述哈希表中存储有的训练数据确定为第一聚合训练数据。

6.根据权利要求4所述的点击流数据的处理方法，其特征在于，所述对所述原始训练数据进行聚合，得到第一聚合训练数据，包括：

获取所述原始训练数据中所有训练数据；

根据所述关键信息对应计算所述原始训练数据中训练数据的哈希值；

对具有相同哈希值的训练数据分别进行聚合，得到第一聚合训练数据；

统计具有相同哈希值的训练数据的数量并记录。

7.根据权利要求4所述的点击流数据的处理方法，其特征在于，对所述第一聚合训练数据进行聚合，得到第二聚合训练数据，包括：

从第一聚合训练数据中依次提取训练数据；

根据所述关键信息计算提取的训练数据的哈希值；

若是，则在所述哈希表中获取到对应的训练数据，并对对应的聚合的训练数据数量进行更新，并返回执行从第一聚合训练数据中依次提取训练数据的步骤，直至确定第一聚合训练数据中的训练数据全部提取完成；

若否，则将所述哈希值指示的训练数据加入哈希表，并记录对应的聚合的训练数据数量，并返回执行从第一聚合训练数据中依次提取训练数据的步骤，直至确定第一聚合训练数据中的训练数据全部提取完成；

确定第一聚合训练数据中的训练数据全部提取完成时，将所述哈希表中存储有的训练数据确定为第二聚合训练数据。

8.根据权利要求4所述的点击流数据的处理方法，其特征在于，所述第一聚合训练数据进行聚合，得到第二聚合训练数据，包括：

获取所述第一聚合训练数据中所有训练数据；

根据所述关键信息对应计算所述第一聚合训练数据中训练数据的哈希值；

对具有相同哈希值的训练数据分别进行聚合，得到第二聚合训练数据；

统计具有相同哈希值的训练数据的数量并记录。

9.一种点击流数据的处理装置，其特征在于，包括：

获取单元，用于获取点击流数据；

生成单元，用于根据所述点击流数据，生成原始训练数据；

10.根据权利要求9所述的点击流数据的处理装置，其特征在于，所述训练单元，包括：

第一接收子单元，用于接收模型训练的请求；

第一训练子单元，用于根据所述请求，对所述第一聚合训练数据进行点击率预估模型训练。

11.根据权利要求9所述的点击流数据的处理装置，其特征在于，所述训练单元，包括：

第二接收子单元，用于接收模型训练的请求；

第一获取子单元，用于根据所述请求，获取在预设的第二时间间隔内存储的所述第一聚合训练数据，所述第二时间间隔大于所述第一时间间隔；

则所述聚合单元，用于对所述第一聚合训练数据进行聚合，得到第二聚合训练数据；

所述训练单元还包括第二训练子单元，用于利用所述第二聚合训练数据进行点击率预估模型训练。

12.根据权利要求9至11任一项所述的点击流数据的处理装置，其特征在于，所述生成单元，具体用于提取所述点击流数据中的关键信息，根据所述关键信息生成原始训练数据。

13.根据权利要求12所述的点击流数据的处理装置，其特征在于，所述聚合单元，包括：

第一提取子单元，用于从原始训练数据中依次提取训练数据；

第一计算子单元，用于根据所述关键信息计算提取的训练数据的哈希值；

第一判断子单元，用于判断预设的哈希表是否存储有所述哈希值指示的训练数据，所述哈希表包含训练数据的内容及聚合的训练数据数量；

第一更新控制单元，用于若是，则在所述哈希表中获取到对应的训练数据，并对对应的聚合的训练数据数量进行更新，并返回执行从原始训练数据中依次提取训练数据的步骤，直至确定所述原始训练数据全部提取完成；

第一记录控制单元，用于若否，则将所述哈希值指示的训练数据加入哈希表，并记录对应的聚合的训练数据数量为1，并返回执行从原始训练数据中依次提取训练数据的步骤，直至确定所述原始训练数据全部提取完成；

14.根据权利要求12所述的点击流数据的处理装置，其特征在于，所述聚合单元，包括：

第二获取子单元，用于获取所述原始训练数据中所有训练数据；

第二计算子单元，用于根据所述关键信息对应计算所述原始训练数据中训练数据的哈希值；

15.根据权利要求12所述的点击流数据的处理装置，其特征在于，所述聚合单元包括：

第三计算子单元，用于根据所述关键信息计算提取的训练数据的哈希值；

第二判断子单元，用于判断预设的哈希表是否存储有所述哈希值指示的训练数据，所述哈希表包含训练数据的内容及聚合的训练数据数量；

第二更新控制单元，用于若是，则在所述哈希表中获取到对应的训练数据，并对对应的聚合的训练数据数量进行更新，并返回执行从第一聚合训练数据中依次提取训练数据的步骤，直至确定第一聚合训练数据中的训练数据全部提取完成；

第二记录控制单元，用于若否，则将所述哈希值指示的训练数据加入哈希表，并记录对应的聚合的训练数据数量，并返回执行从第一聚合训练数据中依次提取训练数据的步骤，直至确定第一聚合训练数据中的训练数据全部提取完成；

第二确定子单元，用于确定第一聚合训练数据中的训练数据全部提取完成时，将所述哈希表中存储有的训练数据确定为第二聚合训练数据。

16.根据权利要求12所述的点击流数据的处理装置，其特征在于，所述聚合单元，包括：