CN106055606A

CN106055606A - 流数据处理方法和装置

Info

Publication number: CN106055606A
Application number: CN201610353867.4A
Authority: CN
Inventors: 王迎新; 张云锋; 蒋子俊; 周盛; 董亚卫; 潘柏宇; 王冀
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: 1Verge Internet Technology Beijing Co Ltd
Priority date: 2016-05-25
Filing date: 2016-05-25
Publication date: 2016-10-26

Abstract

本发明涉及一种流数据处理方法和装置。该流数据处理方法主要包括：实时接收各业务产生的流数据，对所述流数据进行统计并将统计得到的所述各业务对应的统计数据存储到内存中；在需要清理所述内存的情况下，在对第一统计周期内的最后一条流数据统计完成之后，将所述内存中存储的所述第一统计周期内的统计数据清除。本发明在内存中分配适当容量的存储空间用于对流数据的处理，按照不同的统计周期存储各统计周期对应的统计数据，并在某一统计周期内的最后一条流数据统计完成之后，将所述内存中存储的该统计周期内的统计数据清除，提高流数据处理的速度和效率，保证了流数据处理的准确性。

Description

流数据处理方法和装置

技术领域

本发明涉及数据处理领域，尤其涉及一种流数据处理方法和装置。

背景技术

流数据是一组顺序、大量、快速、连续到达的数据序列，可以被视为一个随时间延续而无限增长的动态数据集合。流数据广泛应用于网络监控、传感器网络、航空航天、气象测控和金融服务等应用领域，通过对流数据的研究可以进行卫星云图监测、股市走向分析、网络攻击判断等。

现有技术中，对流数据的处理方法主要有以下两种。一种是直接写入mysql或redis等数据库，每次更新时从mysql或redis读取数据，然后与新数据相加后再将计算结果写入mysql或redis。另一种是在内存中存储一份数据，每次根据内存中的数据进行计算，将计算结果覆盖到mysql或redis中去，到24：00点时将数据结构清空，开始存储计算新一天的数据。

采用上述第一种方法，每一次更新时都需要从mysql或redis中读取数据，增加网络传输的时间，效率低。采用上述第二种方法，在24：00点时清空数据结构，不能保证此时上一天的数据已经计算完成，容易造成数据不准确。具体而言，上一天最后一分钟的数据在清空数据结构后才被传进来，此时，根据内存中的新数据计算并覆盖到mysql或redis中的数据是最后一分钟的数据，而不是前一天的数据。

发明内容

技术问题

有鉴于此，本发明要解决的技术问题是，如何实现高效准确地处理流数据。

解决方案

为了解决上述技术问题，根据本发明的一实施例，提供了一种流数据处理方法，包括：

实时接收各业务产生的流数据，对所述流数据进行统计并将统计得到的所述各业务对应的统计数据存储到内存中；其中，在所述内存中，按照不同的统计周期存储各统计周期对应的统计数据；

在需要清理所述内存的情况下，在对第一统计周期内的最后一条流数据统计完成之后，将所述内存中存储的所述第一统计周期内的统计数据清除。

对于上述方法，在一种可能的实现方式中，实时接收各业务产生的流数据，对所述流数据进行统计并将统计得到的所述各业务对应的统计数据存储到内存中，包括：

接收所述业务产生的流数据，并根据所述流数据获取第一级关键词和所述第一级关键词对应的第一数据；其中，所述流数据包括用于获取所述第一级关键词的至少一个第二级关键词；

从所述内存中存储的所述统计数据中获取所述第一级关键词对应的第二数据；

将所述第一数据和所述第二数据求和得到的结果，按照第一级关键词存储至所述内存中。

对于上述方法，在一种可能的实现方式中，

实时接收各业务产生的流数据，对所述流数据进行统计并将统计得到的所述各业务对应的统计数据存储到内存中，包括：

在所述内存中连续存储至少两个统计周期的统计数据；

在对第一统计周期内的最后一条流数据统计完成之后，将所述内存中存储的所述第一统计周期内的统计数据清除，包括：

在第二统计周期之后，将所述内存中存储的所述第一统计周期内的统计数据清除，所述第二统计周期的时间晚于所述第一统计周期的时间。

对于上述方法，在一种可能的实现方式中，

在所述内存中连续存储至少两个统计周期的统计数据，包括：

在所述内存中连续存储至少两天的统计数据；

在第二统计周期之后，将所述内存中存储的所述第一统计周期内的统计数据清除，包括：

在第二天之后，将所述内存中存储的第一天的统计数据清除，所述第二天为与所述第一天相邻且日期在后的一天。

对于上述方法，在一种可能的实现方式中，在第二天之后，将所述内存中存储的第一天的统计数据清除，包括：

在接收到第三天对应的第一条流数据的时刻，清除所述第一天的统计数据，所述第三天为与所述第二天相邻且日期在后的一天。

对于上述方法，在一种可能的实现方式中，还包括：

将所述第一数据和所述第二数据求和得到的结果，按照第一级关键词存储至数据库中。

为了解决上述技术问题，根据本发明的另一实施例，提供了一种流数据处理装置，包括：

处理模块，用于实时接收各业务产生的流数据，对所述流数据进行统计并将统计得到的所述各业务对应的统计数据存储到内存中；其中，在所述内存中，按照不同的统计周期存储各统计周期对应的统计数据；

清除模块，用于在需要清理所述内存的情况下，在对第一统计周期内的最后一条流数据统计完成之后，将所述内存中存储的所述第一统计周期内的统计数据清除。

对于上述装置，在一种可能的实现方式中，所述处理模块包括：

获取单元，用于接收所述业务产生的流数据，并根据所述流数据获取第一级关键词和所述第一级关键词对应的第一数据；其中，所述流数据包括用于获取所述第一级关键词的至少一个第二级关键词；

查找单元，用于从所述内存中存储的所述统计数据中获取所述第一级关键词对应的第二数据；

第一存储单元，分别与获取单元和查找单元连接，用于将所述第一数据和所述第二数据求和得到的结果，按照第一级关键词存储至所述内存中。

对于上述装置，在一种可能的实现方式中，

处理模块，具体用于在所述内存中连续存储至少两个统计周期的统计数据；

清除模块，具体用于在第二统计周期之后，将所述内存中存储的所述第一统计周期内的统计数据清除，所述第二统计周期的时间晚于所述第一统计周期的时间。

对于上述装置，在一种可能的实现方式中，

处理模块，具体用于在所述内存中连续存储至少两天的统计数据；

清除模块，具体用于在第二天之后，将所述内存中存储的第一天的统计数据清除，所述第二天为与所述第一天相邻且日期在后的一天。

对于上述装置，在一种可能的实现方式中，

清除模块，具体用于在接收到第三天对应的第一条流数据的时刻，清除所述第一天的统计数据，所述第三天为与所述第二天相邻且日期在后的一天。

对于上述装置，在一种可能的实现方式中，还包括：

第二存储单元，用于将所述第一数据和所述第二数据求和得到的结果，按照第一级关键词存储至数据库中。

有益效果

本发明在内存中分配适当容量的存储空间用于对流数据的处理，按照不同的统计周期存储各统计周期对应的统计数据，并在某一统计周期内的最后一条流数据统计完成之后，将所述内存中存储的该统计周期内的统计数据清除，提高流数据处理的速度和效率，保证了流数据处理的准确性。

根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面，并且用于解释本发明的原理。

图1示出根据本发明一实施例的流数据处理方法的流程图；

图2示出根据本发明一实施例的流数据处理方法的另一流程图；

图3示出根据本发明一实施例的流数据处理方法的另一流程图；

图4示出根据本发明另一实施例的流数据处理方法的流程图；

图5示出根据本发明另一实施例的流数据处理方法的另一流程图；

图6示出根据本发明另一实施例的流数据处理方法的另一流程图；

图7示出根据本发明一实施例的流数据处理装置的结构框图；

图8示出根据本发明一实施例的流数据处理装置的另一结构框图。

具体实施方式

以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

实施例1

图1示出根据本发明一实施例的流数据处理方法的流程图。如图1所示，该流数据处理方法主要包括：

步骤101：实时接收各业务产生的流数据，对所述流数据进行统计并将统计得到的所述各业务对应的统计数据存储到内存中；

步骤102：在需要清理所述内存的情况下，在对第一统计周期内的最后一条流数据统计完成之后，将所述内存中存储的所述第一统计周期内的统计数据清除。

其中，业务可以指各行业中能够产生流数据的事务，例如网络监控(网络流量、点击量)、无线通信网(通话记录)、气象测控和金融服务等。流数据可以指顺序、大量、快速、连续到达的数据序列。一般情况下，流数据可被视为一个随时间延续而变化例如增长的动态数据集合。统计数据可以指对统计周期内的流数据进行统计得到的数据序列。

对流数据的统计过程可以在CPU(Central Processing Unit，中央处理器)或其他具有类似处理和存储功能的装置中实现，本实施例对此不作限制。内存可以指CPU或其他处理装置的存储器。在内存中分配适当容量的存储空间用于对流数据的处理和存储，例如按照不同的统计周期存储各统计周期对应的统计数据，从而提高流数据处理的速度和效率。

在内存中具有可以容纳新统计周期的统计数据的空间情况下，可以将新统计周期的统计数据直接存入内存中。但是，由于内存的空间有限，在内存中用于存储统计数据的空间不足的情况下，需要清理内存，这时，可以将某个选定统计周期内的统计数据从内容中清除。

本实施例不限制将所述内存中存储的第一统计周期内的统计数据清除的具体时间，只要满足对第一统计周期内的最后一条流数据统计完成的条件既可。举例而言，既可以在第一统计周期结束后，后续的第二统计周期开始时(或开始后一段时间)，认为满足对第一统计周期内的最后一条流数据统计完成的条件；也可以在收到一条或几条带有第二统计周期的时间信息的流数据后，认为满足对第一统计周期内的最后一条流数据统计完成的条件；还可以在第一统计周期结束且一定时间内未收到带有第一统计周期的时间信息的流数据后，认为满足对第一统计周期内的最后一条流数据统计完成的条件。

在一种可能的实现方式中，如图2所示，实时接收业务产生的流数据，对所述流数据进行统计并将统计得到的所述业务的统计数据存储到内存中(步骤101)，具体可以包括：

步骤201：接收所述业务产生的流数据，并根据所述流数据获取第一级关键词和所述第一级关键词对应的第一数据；

步骤202：从所述内存中存储的所述统计数据中获取所述第一级关键词对应的第二数据；

步骤203：将所述第一数据和所述第二数据求和得到的结果，按照第一级关键词存储至所述内存中。

其中，接收到的业务产生的流数据可以包括：时间信息、第二级关键词以及第一数据。具体地，时间信息可以标识统计周期，第二级关键词可以单独结合时间信息，或者多个组合后结合时间信息形成第一级关键词。在不存在第二级关键词的情况下，例如统计某一个网站每天的访问量，此时，时间信息可以作为第一级关键词。通过第一级关键词可以实现匹配、存储、查找统计数据或其他类似功能。在流数据的统计过程中，可以存在一个第一级关键词，也可以存在多个第一级关键词。第一级关键词的维度取决于第二级关键词的个数以及第二级关键词的维度，所述维度可以指其各自对应的范围。

举例而言，第一数据可以指某一条流数据中需要进行统计的数据。第二数据可以指在接收到某一条流数据之前，在该统计周期内某一第一级关键词对应的统计数据。具体地，在接收到统计周期内某一第一级关键词对应的第一条流数据的情况下，内存中可能没有存储该第一级关键词对应的第二数据。此时，可以直接将第一级关键词以及第一级关键词对应的第一数据存入内存中。进一步地，在接收到统计周期内某一第一级关键词对应的第二条以及以后接收到的流数据的情况下，内存中才有可能存储该第一级关键词对应的第二数据。此时，将第一数据和第二数据求和得到的结果，按照第一级关键词存储至所述内存中。

本实施例以在播放软件中进行广告投放为例进行示例性说明。在本示例中，时间信息为日期，可以通过例如2016-05-13等方式表示。第二级关键词可以包括但不限于小时(hour)、系统(sys)、素材(idea)和互联网协议(ip)地址中的一种或多种。进一步地，可以选取日期以及上述第二级关键词的组合方式作为第一级关键词(key)，例如，选取下列5个第一级关键词：sys-hour-ip-idea-data，sys-hour-data，sys-ip-date，sys-idea-date，sys-date。

具体而言，在第二级关键词中，小时的维度可以为24，可以通过例如8：00-9：00的方式表示；系统的维度可以为例如8，主要包括广告投放过程中广告所历经的系统例如ATM系统、DSP系统等；素材的维度可以为例如200，主要包括广告投放过程中可供选择的广告等；ip的维度可以为255，主要包括各系统对应的ip号。因此，第一级关键词的维度为9792000(24×8×200×255的乘积)。

在一个系统中可以设置一个或多个埋点以执行不同的功能，例如执行定向功能、过滤功能或保护功能。在本实施例中，以在ATM系统中设置3埋点为例进行示例性说明。举例而言，接收到一条流数据：2016-05-13，ATM，8：00-9：00，素材2，192.168.0.254，3列字段(70，56，32)。该3列字段(70，56，32)为该条流数据对应的第一数据。第一数据对应单位时间内(例如每分钟)广告请求数经过各埋点后对应的数据。

在本示例中，通过时间信息：2016-05-13，还有流数据包含的第二级关键词：ATM，8：00-9：00，素材2，192.168.0.254，提取第一级关键词以及第一级关键词对应的第一数据：

ATM，8：00-9：00，192.168.0.254，素材2，2016-05-13，(70，56，32)；

ATM，8：00-9：00，2016-05-13，(70，56，32)；

ATM，192.168.0.254，2016-05-13，(70，56，32)；

ATM，素材2，2016-05-13，(70，56，32)；

ATM，2016-05-13，(70，56，32)。

按照第一级关键词在内存中查找其存储的该第一级关键词对应的第二数据：

ATM，8：00-9：00，192.168.0.254，素材2，2016-05-13，(30，10，10)；

ATM，8：00-9：00，2016-05-13，(684，596，511)；

ATM，192.168.0.254，2016-05-13，(573，496，411)；

ATM，素材2，2016-05-13，(134，22，32)；

ATM，2016-05-13，(1434，836，635)。

将所述第一数据和所述第二数据求和得到的结果，按照第一级关键词存储到内存中。具体地，存储后的第一级关键词对应的统计数据如下：

ATM，8：00-9：00，192.168.0.254，素材2，2016-05-13，(100，66，42)；

ATM，8：00-9：00，2016-05-13，(754，652，543)；

ATM，192.168.0.254，2016-05-13，(643，552，443)；

ATM，素材2，2016-05-13，(204，78，64)；

ATM，2016-05-13，(1054，892，667)。

在一种可能实现的方式中，如图3所示，该流数据处理方法还包括：

步骤204：将所述第一数据和所述第二数据求和得到的结果，按照第一级关键词存储至数据库中。

为了保证数据实时更新，并把当前的计算结果展示给用户。因此，在有新的流数据到来后，将第一数据和第二数据求和得到的结果直接按照第一级关键词存储至数据库中。其中，数据库可以是按照数据结构来组织、存储和管理数据的仓库，例如mysql或redis，本实施例对此不作限制。

本发明实施例在内存中分配适当容量的存储空间用于对流数据的处理，按照不同的统计周期存储各统计周期对应的统计数据，并在某一统计周期内的最后一条流数据统计完成之后，将所述内存中存储的该统计周期内的统计数据清除，提高流数据处理的速度和效率，保证了流数据处理的准确性。

实施例2

本实施例与实施例1的区别在于，本实施例提供了流数据处理方法的一种实现方式。如图4所示，该流数据处理方法具体可以包括：

步骤401：在所述内存中连续存储至少两个统计周期的统计数据；

步骤402：在第二统计周期之后，将所述内存中存储的所述第一统计周期内的统计数据清除，所述第二统计周期的时间晚于所述第一统计周期的时间。

本实施例不限制在内存中存储的统计周期的个数，优选为存储两个统计周期的统计数据。存储适当数量例如两个统计周期的统计数据，可以在保证准确处理流数据的同时，降低内存空间的占用。本实施例不限制统计周期的具体时间范围，例如可以是按照每一天、每十二个小时或每一个小时等。在实际应用的过程中，可以按照业务特点，选择合适的统计周期。

进一步地，以每一天作为一个统计周期。如图5所示，该流数据处理方法具体可以包括：

步骤501：在所述内存中连续存储至少两天的统计数据；

步骤502：在第二天之后，将所述内存中存储的第一天的统计数据清除，所述第二天为与所述第一天相邻且日期在后的一天。

其中，在第二天之后将内存中存储的第一天的统计数据清除，其实现方式可以有很多种。例如，可以设置在第二天的24：00时候，清除第一天的统计数据；也可以设置在接收到第三天对应的第一条流数据的时刻，清除第一天的统计数据。本实施例不限制将内存中存储的第一天的统计数据清除的具体时间，只要满足在第二天之后清除的条件既可。

在一种可能实现的方式中，如图6所示，在第二天之后，将所述内存中存储的第一天的统计数据清除(步骤502)，具体可以包括：

步骤601：在接收到第三天对应的第一条流数据的时刻，清除所述第一天的统计数据，所述第三天为与所述第二天相邻且日期在后的一天。

以接收到第三天对应的第一条流数据的时刻清除第一天的统计数据为例进行示例性说明。在本示例中，时间信息为日期。接收来自kafka(高吞吐量的分布式发布订阅消息系统)的流数据，提取该条流数据对应的日期，例如2016-05-15。判断该条流数据对应的日期2016-05-15是否为内存中已经存储的相关日期，此时在内存中已经存储两天的统计数据第一天(2016-05-13)和第二天(2016-05-14)。在这种情况下，释放掉第一天(2016-05-13)的统计数据占用的内存，为第三天(2016-05-15)的统计数据分配内存。

需要说明的是，本实施例不限制第一级关键词以及第一级关键词对应以的统计数据具体存储方式，例如，可以在内存中构建数据结构。其中，数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下，精心选择的数据结构可以带来更高的运行或者存储效率。

本发明实施例在内存中连续存储至少两天的统计数据，并在第二天之后，将内存中存储的第一天的统计数据清除，提高流数据处理的速度和效率，保证了流数据处理的准确性。

实施例3

图7示出根据本发明一实施例的流数据处理装置的结构示意图。如图7所示，该装置主要包括：处理模块11，用于实时接收各业务产生的流数据，对所述流数据进行统计并将统计得到的所述各业务对应的统计数据存储到内存中；其中，在所述内存中，按照不同的统计周期存储各统计周期对应的统计数据。清除模块13，用于在需要清理所述内存的情况下，在对第一统计周期内的最后一条流数据统计完成之后，将所述内存中存储的所述第一统计周期内的统计数据清除。具体原理和示例可以参见实施例1以及图1的相关描述。

在一种可能实现的方式中，如图8所示，处理模块11包括：获取单元111，用于接收所述业务产生的流数据，并根据所述流数据获取第一级关键词和所述第一级关键词对应的第一数据；其中，所述流数据包括用于获取所述第一级关键词的至少一个第二级关键词。查找单元113，用于从所述内存中存储的所述统计数据中获取所述第一级关键词对应的第二数据。第一存储单元115，分别与获取单元111和查找单元113连接，用于将所述第一数据和所述第二数据求和得到的结果，按照第一级关键词存储至所述内存中。具体原理和示例可以参见实施例1以及图2的相关描述。

在一种可能实现的方式中，如图8所示，处理模块11还包括：第二存储单元117，与第一存储单元115连接，用于将所述第一数据和所述第二数据求和得到的结果，按照第一级关键词存储至数据库中。具体原理和示例可以参见实施例1以及图3的相关描述。

本发明实施例的流数据处理装置，在内存中分配适当容量的存储空间用于对流数据的处理，按照不同的统计周期存储各统计周期对应的统计数据，并在某一统计周期内的最后一条流数据统计完成之后，将所述内存中存储的该统计周期内的统计数据清除，提高流数据处理的速度和效率，保证了流数据处理的准确性。

实施例4

本实施例与实施例3的区别在于，本实施例提供了流数据处理装置的一种实现方式。该流数据处理装置具体可以用于：处理模块11，具体用于在所述内存中连续存储至少两个统计周期的统计数据。清除模块13，具体用于在第二统计周期之后，将所述内存中存储的所述第一统计周期内的统计数据清除，所述第二统计周期的时间晚于所述第一统计周期的时间。具体原理和示例可以参见实施例2以及图4的相关描述。

在一种可能实现的方式中，以每一天作为一个统计周期。处理模块11，具体用于在所述内存中连续存储至少两天的统计数据。清除模块13，具体用于在第二天之后，将所述内存中存储的第一天的统计数据清除，所述第二天为与所述第一天相邻且日期在后的一天。具体原理和示例可以参见实施例2以及图5的相关描述。

在一种可能实现的方式中，以每一天作为一个统计周期。清除模块13，具体用于在接收到第三天对应的第一条流数据的时刻，清除所述第一天的统计数据，所述第三天为与所述第二天相邻且日期在后的一天。具体原理和示例可以参见实施例2以及图6的相关描述。

本发明实施例的流数据处理装置，在内存中连续存储至少两天的统计数据，并在第二天之后，将内存中存储的第一天的统计数据清除，提高流数据处理的速度和效率，保证了流数据处理的准确性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种流数据处理方法，其特征在于，包括：

2.根据权利要求1所述的流数据处理方法，其特征在于，实时接收各业务产生的流数据，对所述流数据进行统计并将统计得到的所述各业务对应的统计数据存储到内存中，包括：

3.根据权利要求1或2所述的流数据处理方法，其特征在于，

在所述内存中连续存储至少两个统计周期的统计数据；

4.根据权利要求3所述的流数据处理方法，其特征在于，

在所述内存中连续存储至少两天的统计数据；

5.根据权利要求4所述的流数据处理方法，其特征在于，在第二天之后，将所述内存中存储的第一天的统计数据清除，包括：

6.根据权利要求2所述的流数据处理方法，其特征在于，还包括：

7.一种流数据处理装置，其特征在于，包括：

8.根据权利要求7所述的流数据处理装置，其特征在于，所述处理模块包括：

9.根据权利要求7或8所述的流数据处理装置，其特征在于，

10.根据权利要求9所述的流数据处理装置，其特征在于，

11.根据权利要求10所述的流数据处理装置，其特征在于，

12.根据权利要求8所述的流数据处理装置，其特征在于，还包括：