CN111522846B

CN111522846B - 一种基于时序中间态数据结构的数据聚合方法

Info

Publication number: CN111522846B
Application number: CN202010273950.7A
Authority: CN
Inventors: 王新根; 王新宇; 鲁萍; 黄滔; 陈伟; 金路
Original assignee: Zhejiang Bangsheng Technology Co ltd
Current assignee: Zhejiang Bangsheng Technology Co ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2023-08-22
Anticipated expiration: 2040-04-09
Also published as: CN111522846A

Abstract

本发明公开了一种基于时序中间态数据结构的数据聚合方法，时序中间态数据结构包括主键、特征键和数据；主键用于关联业务系统中一个特定的业务对象，对数据的存储和计算进行负载均衡，特征键用于描述特定业务对象的特征名称，数据为业务系统中的事件经过特征计算系统处理后形成的数值及其计算方法，用于时序中间态数据合并操作时计算中间结果。数据聚合方法基于时序中间态数据结构，通过将事件转换成若干条中间态数据，存储至对应的缓存队列中，再根据中间态数据的主键、特征键以及时间戳对中间态数据进行合并，最后存储进到存数据库中。本发明方法能够减少系统的IO负载，减少并合理分配系统的计算负载。

Description

一种基于时序中间态数据结构的数据聚合方法

技术领域

本发明涉及数据处理领域，尤其涉及一种基于时序中间态数据结构的数据聚合方法。

背景技术

时序数据，又称时间序列数据，是按时间顺序记录的数据列。时序特征计算是通过求和、平均、方差等计算方法，对时间序列进行处理以后得到的特征数据，例如：包含时间戳的交易流水是时序数据，通过求和、计数可获得本月交易总额、最近1小时交易次数时序特征。在移动互联网、物联网、金融服务等行业中，时序特征被广泛用于防范交易欺诈、个性化推荐、事中决策等业务场景中。除本身作为业务决策的依据外，时序特征还可作为输入，与规则引擎、机器学习模型等对接，处理复杂决策。

实时时序特征计算系统(下文简称特征计算系统)用于实时计算事件数据流的时序特征，具有如下三个特点：1)事件驱动，特征计算通过接收事件来触发。2)有状态计算，特征计算依赖于过去或相关联的数据，并不能从当前处理的事件推导得出。例如：“最近5分钟交易总额”，并不能由最近一笔交易的信息计算得出。因而，特征计算系统需维护一系列状态。3)实时计算，数据价值随时间流逝而降低，特征计算系统作为决策基础，需要在最短时间内完成特征计算。

特征计算系统大多采用经典流计算架构实现，目前主流的流式大数据计算框架包括Flink、Spark Streaming、Storm等。然而，随着数据采集手段的增加和业务复杂程度的提升，特征计算系统所需处理数据量急剧扩大。系统面临更大的挑战，主要体现在以下两个方面：一是，特征数量巨大，由于需要对用户、账号、资产等业务对象建立多维度的复杂特征体系，形成包含千亿甚至万亿特征的庞大体系；二是，事件并发量巨大，特征计算系统每秒需承载超过千万的事件，对网络传输和底层存储产生巨大的IO压力。

以上两方面的压力对经典流计算架构产生了巨大影响。由于特征数量急剧增加，流计算框架内部需要维护的状态数量也因此急剧增加。由于Flink等流计算框架本身仅作为计算框架实现，并不针对底层存储进行管理和优化，需要工程师将状态管理从流计算框架内部转移到外部的分布式内存数据库中。在每次收到事件时，特征计算系统需从内存数据库中取出与当前时序特征相关的数据，并送入流计算框架中处理。另一方面，由于事件并发量增大，导致状态数据同步的频次和数量增加，并导致系统内部的网络IO负载。最终，只能通过大量增加流计算框架节点和内存数据库节点，来满足特征计算的实时需求。特征计算系统的拥有成本和运维成本也因此急剧升高。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于时序中间态数据结构的数据聚合方法，该方法可减少系统的IO负载，并减少并合理分配系统的计算负载。

本发明的目的是通过以下技术方案来实现的：一种基于时序中间态数据结构的数据聚合方法，该方法通过特征计算系统将业务系统的数据转换成中间态数据，然后再对中间态数据进行聚合和存储；

所述中间态数据的结构包括主键PKey、特征键FKey和数据Data；

所述主键PKey，用于关联业务系统中一个特定的业务对象，是一个全局唯一的键值；用于对数据的存储和计算进行负载均衡；

所述特征键FKey，用于描述特定业务对象的特征名称；所述特征名称具备唯一性；通过主键和特征键的组合，可以唯一确定某一业务对象的特定特征。

所述数据Data，业务系统中的事件经过特征计算系统处理后形成的数值及其计算方法，用于时序中间态数据合并操作时计算中间结果。数据包含时间戳、聚合方式、结果数值和辅助数据四部分；所述时间戳为当前中间态数据所属时间切片的起点，由特征计算系统根据事件时间戳映射而成；所述聚合方式为描述中间态数据聚合的方法；所述结果数值为当前已知的中间态数据的具体数值；所述辅助数据为对中间态数据进行聚合时与聚合方式相关的所需的额外辅助数据。

进一步地，该方法包括以下步骤：

(1)业务系统将事件随机发送给特征计算系统中的任一节点；

(2)接收到事件的特征计算系统节点实时计算事件数据流的时序特征，将其转换成中间态数据；并根据中间态数据的主键PKey确定该中间态数据所对应的目标节点，并将中间态数据发送至目标节点的缓存队列Queue；

(3)缓存队列Queue每次取出n条中间态数据，根据中间态数据的主键PKey、特征键FKey以及时间戳Timestamp是否一致，对中间态数据进行两两比对和合并；

(4)将步骤(3)中的中间态数据合并结果逐一与内存数据库MemDB中的对应的中间态数据采用与步骤(3)相同的方式进行合并，将最终合并后的结果存储在内存数据库MemDB中。

进一步地，所述特征计算系统具有若干个节点，每个节点包括三个主要结构：特征处理器Feature Processor、缓存队列Queue和内存数据库MemDB；

所述特征处理器Feature Processor用于接收来自业务系统的事件，并将其转换成中间态数据，根据中间态数据对应的PKey将其转发至对应节点做后续处理；

所述缓存队列Queue缓存特征处理器Feature Processor输出的中间态数据，用于特征处理器和底层数据库之间解耦；

所述内存数据库MemDB为整个特征计算系统的底层存储，用于保存所有的中间态数据。

进一步地，所述主键可以是清算系统中的一个商户号，或是物联网中的某个传感器ID，根据业务系统设计抽象出的特定唯一对象。

进一步地，所述特征计算系统为用于实时计算事件数据流的时序特征的系统。

进一步地，特征计算系统通过哈希算法，将主键转换为一个固定值，并根据该数值选择特征计算系统中节点进行数据处理和存储。

进一步地，所述聚合方式包括依据最大/小值、平均值、方差或标准差等方式实现数据聚合。

进一步地，在完成时序中间态数据合并更新结果数值的同时，也需要对辅助数据进行相应的更新。

本发明的有益效果：

(1)减少系统的IO负载：

减少网络负载：相较于传输完整的明细原始数据，使用中间态数据记录进行传输，可以明显降低在系统各模块之间网络传输IO负载。

减少存储负载：在进行持久化存储时，由于只需要进行中间态数据记录的存储，无需频繁读写存储介质，从而减少了存储介质的IO负载。

(2)减少并合理分配系统的计算负载：

分散系统的计算负载：中间态数据记录即可进行合并，因而，计算可以发生在系统很多结构中，而并非专门进行数据计算的节点，将计算负载有效的分布到系统中去。

减少序列化处理负载：由于系统各个部分之间需要通过网络传输数据，因此存在较多序列化和反序列化操作，由于中间态数据的使用，大量减少的数据的传输数量，同时也就降低了系统各模块所需的序列化和反序列化工作量，从而降低了整体系统的计算负载。

附图说明

图1为特征计算系统的架构缩略图；

图2为时序中间态数据记录结构图；

图3为本发明实施例环境温度监控结构图。

具体实施方式

本发明提供了一种基于时序中间态数据结构的数据聚合方法，使用中间态数据作为介质，在系统内部进行特征计算和数据传播。在有状态计算领域中，中间态数据是与最终态数据相对应的概念。对于时序特征而言，当特征对应的时间窗口发生变化，最后计算得出的数值即为一个最终态数据。例如：时序特征“最近24小时交易总额”的时间窗口每小时都进行一次滑动，产生一个新的最终态数据。相对的，中间态数据则按照一定的时间切片内的事件计算，保留中间结果而非明细数据。在时间窗口发生滑动时，将对应中间态数据进行聚合而获得最终态数据。以“最近24小时的交易总额”为例，由于时间窗口每小时发生一次滑动，中间态数据以一小时为切片，存储每个小时的交易总额。在新的事件到来时，只需根据事件时间戳，对相应的时间切片的中间态数据进行增量计算，更改其数值。在窗口滑动时，只需要对24个对应时间切片的中间态数据进行求和即可，而无需进行明细数据的重新计算。

由于中间态数据可聚合特性，将特征计算中的全量计算演变为增量计算，一方面减小了特征计算过程中因时间窗口移动而产生的重复计算量，减小系统对CPU的消耗；另一方面，由于不需要再系统内部反复传输全量详情数据，因而减小了系统内部网络和内存的IO消耗。

中间态数据具体结构如图2所示，包括主键(PKey)、特征键(FKey)和数据(Data)三部分：

a.主键(PKey)，用于关联业务系统中一个特定的业务对象，是一个全局唯一的键值。所述业务系统为有特征计算需求，并通过接口/客户端与特征计算系统对接的可以实现业务需求的系统；主键可以是清算系统中的一个商户号，或是物联网中的某个传感器ID，根据业务系统设计抽象出的特定唯一对象。此外，主键还用于对数据的存储、计算等关键过程进行负载均衡。特征计算系统通过哈希算法，将主键转换为一个固定值，并根据该数值选择特征计算系统中节点进行数据处理和存储。

b.特征键(FKey)，用于描述特定业务对象的特征名称。特征名称具备唯一性，针对某一个特定对象，不存在两个或以上的特征存在同样名称的情况。通过主键和特征名称的组合，可以唯一确定系统中某一对象的特定特征。举例来说：特征计算系统接收多个温度传感器上传的温度感应数据。如果某特征需要计算过去24小时的最高温度，可将传感器的全局唯一硬件设备ID作为主键值，如：T-8IXY5C8S。与其相关的存储和运算资源都通过该ID的哈希值进行确定。而“过去24小时的最高温度”则可作特征键。不同的温度传感器都可以有“过去24小时的最高温度”这个特征键，而“T-8IXY5C8S过去24小时的最高温度”则唯一表达了该温度传感器的某一特定特征。

c.数据(Data)，事件经过特征计算系统处理后形成的数值及其计算方法，可用于中间态数据合并操作时计算中间结果。数据包含四部分：一是，时间戳，当前中间态数据所属时间切片的起点，由特征计算系统根据事件时间戳映射而成；二是，聚合方式，描述中间态数据聚合的方法，例如：最大/小值、平均值、方差、标准差等；三是，结果数值，即当前已知的中间态数据的具体数值；四是，辅助数据，对中间态数据进行聚合时与聚合方式相关的所需的额外辅助数据。例如：中间态数据需要计算平均值，那么除了记录已知的平均值数据外，还需将已计算数值数量记为辅助数据。当新数据到来时，利用现有的平均值和数值个数即可计算新的平均值。在完成中间态数据合并并更新结果数值的同时，也需要对辅助数据进行相应的更新。图2中，由于最大值Max在进行合并时无需辅助数据，因此这部分未体现。

图1是特征计算系统的架构缩略图。本发明中业务系统为客户端Client，是特征计算系统的客户端，向特征计算系统发送两类数据：事件和处理规则。处理规则定义了从事件中获取中间态数据的方法。特征计算系统由1个或多个节点组成，支持横向扩展。每个节点包括3个主要结构，具体如下：

1.特征处理器Feature Processor负责接收来自客户端Client的事件，将其转换成中间态数据，并根据中间态数据对应的PKey将其转发至对应节点做后续处理；

2.缓存队列Queue缓存特征处理器输出的中间态数据，用于特征处理器和底层数据库之间解耦；

3.内存数据库MemDB则是整个系统的底层存储，用于保存所有的中间态数据。

在特征计算系统处理数据之前，Client会将处理规则发送给任一节点。节点之间会完成处理规则的同步。具体步骤如下：

(1)Client将事件随机发送给特征计算系统中的任一节点；

(2)特征处理器Feature Processor通过预先设定的处理规则，将事件转化为1个或多个中间态数据，并根据中间态数据的主键PKey确定该中间态数据所对应的目标节点，并将中间态数据发送至目标节点的缓存队列Queue。

(3)缓存队列Queue每次取出n条中间态数据，根据中间态数据的主键PKey、特征键FKey以及时间戳Timestamp是否一致，对其进行两两比对和合并。多条中间态数据记录合并的具体算法如下所示(以Python语法表示)：

第01行的参数records是包含所有待合并中间态数据的列表。第02行的变量results则作为最终合并后的结果。从第03行开始对records中的每个中间态数据record进行匹配，查找results中是否有能与其合并的中间态数据。第05行的is_mergable方法通过比较result和record的PKey、FKey以及时间戳Timestamp是否一致，判断两个中间态数据是否能合并。如果result和record可以合并，则通过第06行的merge_record方法，将两个中间态数据进行合并，并更改results中对应的元素。如果results中没有可合并的中间态数据，则将当前的中间态数据记录record放在results列表的末端。最终，返回合并后的中间态数据记录列表results。

(4)完成缓存中间数据的合并后，再将合并结果逐一与内存数据库MemDB中的对应的中间态数据采用与步骤(3)相同的方式进行合并。

假设步骤(3)和步骤(4)使用传统方式进行计算，每次从Queue中取出一个数据，先要进行序列化和反序列化操作，以将数据传输至MemDB。然后，在MemDB中进行一次查询获取特征当前值，在进行计算合并后在存入MemDB。因而，n条数据需要进行n次的序列化和反序列化传输操作，以及n次MemDB读取和写入操作。

相较而言，本发明方法将n条中间态数据合并减少为m条，减少了后续传输和MemDB存储的消耗。由于特征系统通常依据不同特征进行划分底层存储，加之大部分系统中事件数据符合正态分布，大部分数据会集中在少部分的特征中，因而同一Queue中大多存在较多与同一特征关联的中间态数据。极端情况下，如果n条中间态数据属于同一特征，则只需要进行1次序列化和反序列化传输操作，以及1次MemDB读取和写入即可完成，极大减少系统的计算和IO消耗。

本发明一个具体实施例如下：

在物联网领域，对环境温度的监控是常见的一个需求。假设如下一个场景，需监控所有温度传感器过去24小时最高温度。时间窗口每小时滑动一次，那么。如图3所示，指标计算系统收到6个事件消息，从Event_01到Event_06。从6个事件的内容来看，包含了两个温度传感器，其ID分别为T-8IXY5C8S和T-28WMYPDB。T-8IXY5C8S每隔1分钟采集一次温度，分别在12:02:00、12:03:02、12:04:01、12:05:00发出了两个温度测量事件。T-28WMYPDB每隔3分钟采集一次温度，在12:03:01和12:06:00发出了两个温度测量事件。特征计算系统分三个步骤对这些数据进行处理：

(1)客户端Client将上述6个事件发送给特征计算系统；

(2)特征处理器Feature Processor通过预先设定的处理规则，将事件转化为6个中间态数据，从MSRecord_01到MSRecord_06。传感器ID映射为主键PKey，“过去24小时最高温度”则映射为IKey。数据Data部分则分别包含了：

a.时间戳，1585713600000，由于所有数据都是都属于2020/04/01 12:00:00这个时间切片，因此这6个事件转化的中间态数据时间戳均为1585713600000；

b.计算方法，Max，即统计最大值；

c.数值，由于在这一步系统并未进行聚合计算，因此中间态数据的数值即为6个事件各自的温度值。

之后，特征处理器Feature Processor根据主键PKey的哈希值，将6个中间态数据发送给对应节点的缓存队列Queue。在这个例子里，假设T-8IXY5C8S和T-28WMYPDB会被路由到同一个节点。

(3)缓存队列Queue完成上一批中间态数据处理后，取出新收到的6个中间态数据，根据中间态数据的主键PKey、特征键FKey以及时间戳Timestamp进行合并。MSRecord_01\03\04\05共4个中间态数据三要素一致，合并成MSRecord_AGG_01，其数值取上述4个中间态数据中的最大值17.3。MSRecord_02和MSRecord_06则合并成MSRecord_AGG_02，其数值取上述2个中间态数据中的最大值35.53。

(4)完成缓存中间数据的合并后，系统将合并结果逐一与内存数据库MemDB中的对应的中间态数据合并。MSRecord_AGG_01与MSRecord_X合并生成MSRecord_X’，MSRecord_AGG_02与MSRecord_Y合并生成MSRecord_Y’。合并规则与步骤(3)一致。

由于使用了中间态数据，并在缓存结构中对数据进行了合并，系统对内存数据库的读取和存储从12次(6次Select、6次Update)降低成了4次(2次Select，2次Update)，为原来的三分之一。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于时序中间态数据结构的数据聚合方法，其特征在于，该方法通过特征计算系统将业务系统的数据转换成中间态数据，然后再对中间态数据进行聚合和存储；该方法包括以下步骤：

（1）业务系统将事件随机发送给特征计算系统中的任一节点；

（2）接收到事件的特征计算系统节点实时计算事件数据流的时序特征，将其转换成中间态数据；并根据中间态数据的主键PKey确定该中间态数据所对应的目标节点，并将中间态数据发送至目标节点的缓存队列Queue；

所述中间态数据的结构包括主键PKey、特征键FKey和数据Data；

所述特征键FKey，用于描述特定业务对象的特征名称；所述特征名称具备唯一性；通过主键和特征键的组合，可以唯一确定某一业务对象的特定特征；

所述数据Data，业务系统中的事件经过特征计算系统处理后形成的数值及其计算方法，用于时序中间态数据合并操作时计算中间结果；数据包含时间戳、聚合方式、结果数值和辅助数据四部分；所述时间戳为当前中间态数据所属时间切片的起点，由特征计算系统根据事件时间戳映射而成；所述聚合方式为描述中间态数据聚合的方法；所述结果数值为当前已知的中间态数据的具体数值；所述辅助数据为对中间态数据进行聚合时与聚合方式相关的所需的额外辅助数据；

（3）缓存队列Queue每次取出n条中间态数据，根据中间态数据的主键PKey、特征键FKey以及时间戳Timestamp是否一致，对中间态数据进行两两比对和合并；

（4）将步骤（3）中的中间态数据合并结果逐一与内存数据库MemDB中的对应的中间态数据采用与步骤（3）相同的方式进行合并，将最终合并后的结果存储在内存数据库MemDB中。

2.根据权利要求1所述的一种基于时序中间态数据结构的数据聚合方法，其特征在于，所述特征计算系统具有若干个节点，每个节点包括三个结构：特征处理器FeatureProcessor、缓存队列Queue和内存数据库MemDB；

3.根据权利要求1所述的一种基于时序中间态数据结构的数据聚合方法，其特征在于，所述主键是清算系统中的一个商户号，或是物联网中的某个传感器ID，根据业务系统设计抽象出的特定唯一对象。

4.根据权利要求1所述的一种基于时序中间态数据结构的数据聚合方法，其特征在于，所述特征计算系统为用于实时计算事件数据流的时序特征的系统。

5.根据权利要求4所述的一种基于时序中间态数据结构的数据聚合方法，其特征在于，特征计算系统通过哈希算法，将主键转换为一个固定值，并根据该数值选择特征计算系统中节点进行数据处理和存储。

6.根据权利要求1所述的一种基于时序中间态数据结构的数据聚合方法，其特征在于，所述聚合方式包括依据最大/小值、平均值、方差或标准差方式实现数据聚合。

7.根据权利要求1所述的一种基于时序中间态数据结构的数据聚合方法，其特征在于，在完成时序中间态数据合并更新结果数值的同时，也需要对辅助数据进行相应的更新。