CN113806374A

CN113806374A - 一种面向大数据的数据流式缓存方法及系统

Info

Publication number: CN113806374A
Application number: CN202111159888.XA
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Jianjiao Technology Service Co ltd
Current assignee: Shanghai Jianjiao Technology Service Co ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2021-12-17

Abstract

本发明涉及一种面向大数据的数据流式缓存方法及系统。方法包括：完成对到达系统的数据流中每项记录信息的时间戳标记，形成时间序列索引；选择在预先配置好的基础数据量限定下的最小时间，并基于所述时间序列索引进行切片完成数据流时间区段的自动分片处理，得到多个分片的子数据流；对每个分片的子数据流中的数据信息按预先配置好的可缓存数据列进行列式转换，完成对同一数据列的实时压缩，形成缓存数据块；在预先配置好的数据流缓存资源池中按所述缓存数据块的大小分配空闲的数据流缓存资源，并将所述缓存数据块写入所述数据流缓存资源。本发明能够在确保原有的流序列不变的情况下，提供高性能的数据存取访问的缓存机制。

Description

一种面向大数据的数据流式缓存方法及系统

技术领域

本发明涉及大数据处理技术领域，特别是涉及一种面向大数据的数据流式缓存方法及系统。

背景技术

现有的大数据缓存方式通常是基于键值对的KV形式，主要解决在已知关键Key的情况下快速读取或更新数值的需求。这种方式仅仅能够解决点状的数据存取缓存的需求，对于大数据中更为常见的基于时间序列所形成的流式数据则缺乏简单有效的缓存方案。

发明内容

本发明所要解决的技术问题是提供一种面向大数据的数据流式缓存方法及系统，能够在确保原有的流序列不变的情况下，提供高性能的数据存取访问的缓存机制。

本发明解决其技术问题所采用的技术方案是：提供一种面向大数据的数据流式缓存方法，包括以下步骤：

(1)完成对到达系统的数据流中每项记录信息的时间戳标记，形成时间序列索引；

(2)选择在预先配置好的基础数据量限定下的最小时间，并基于所述时间序列索引进行切片完成数据流时间区段的自动分片处理，得到多个分片的子数据流；

(3)对每个分片的子数据流中的数据信息按预先配置好的可缓存数据列进行列式转换，完成对同一数据列的实时压缩，形成缓存数据块；

(4)在预先配置好的数据流缓存资源池中按所述缓存数据块的大小分配空闲的数据流缓存资源，并将所述缓存数据块写入所述数据流缓存资源。

所述步骤(4)中还将所述缓存数据块所对应的数据流时间区段与所述可缓存数据列的元信息写入所述数据流缓存资源的索引中。

当需要对数据流缓存读取访问时，通过对所述数据流缓存资源的索引按所述数据流时间区段与所述可缓存数据列的元信息进行查询，找到分配并写入的数据流缓存资源，通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，获得缓存的数据列数据内容。

当需要对数据流缓存写入访问时，通过对所述数据流缓存资源的索引按所述数据流时间区段与所述可缓存数据列的元信息进行查询，找到分配并写入的数据流缓存资源，通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，获得缓存的数据列数据内容，之后对需要修改的数据信息进行更新替换，并重新压缩为需要更换的缓存数据块，重新写入数据流缓存资源。

在重新写入数据流缓存资源时，在所述数据流缓存资源的元信息上增加数据流存储待更新的标记，并在系统闲时以延迟写出的方式对数据流存储执行相应的更新操作。

当需要对数据流缓存进行清除操作时，通过对所述数据流缓存资源的元信息索引进行查询，找到需要释放的数据流缓存资源，如果数据流缓存资源的元信息上存在数据流存储待更新的标记，则即时对数据流存储执行相应的更新操作，在数据流存储的更新操作执行完成后，所述数据流缓存资源会清零重置，同时数据流缓存资源的元信息索引进行同步更新，所述数据流缓存资源被归还到数据流缓存资源池中待后续使用分配。

本发明解决其技术问题所采用的技术方案是：还提供一种面向大数据的数据流式缓存系统，包括：时间序列索引形成模块，用于完成对到达系统的数据流中每项记录信息的时间戳标记，形成时间序列索引；分片形成模块，用于选择时间切片，并基于所述时间序列索引完成数据流时间区段的自动分片处理，得到多个分片的子数据流；缓存数据块形成模块，用于对每个分片的子数据流中的数据信息按预先配置好的可缓存数据列进行列式转换，完成对同一数据列的实时压缩，形成缓存数据块；数据缓存模块，用于在预先配置好的数据流缓存资源池中按所述缓存数据块的大小分配空闲的数据流缓存资源，并将所述缓存数据块写入所述数据流缓存资源。

所述的面向大数据的数据流式缓存系统还包括索引写入模块，用于将所述缓存数据块所对应的数据流时间区段与所述可缓存数据列的元信息写入所述数据流缓存资源的索引中。

所述的面向大数据的数据流式缓存系统还包括读取访问模块，用于通过对所述数据流缓存资源的索引按所述数据流时间区段与所述可缓存数据列的元信息进行查询，找到分配并写入的数据流缓存资源，通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，获得缓存的数据列数据内容。

所述的面向大数据的数据流式缓存系统还包括写入访问模块，用于通过对所述数据流缓存资源的索引按所述数据流时间区段与所述可缓存数据列的元信息进行查询，找到分配并写入的数据流缓存资源，通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，获得缓存的数据列数据内容，之后对需要修改的数据信息进行更新替换，并重新压缩为需要更换的缓存数据块，重新写入数据流缓存资源。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明中数据流基于流式数据到达系统的时间戳实时自动分片处理，能够适应动态的数据流速提高对数据流缓存的颗粒精细度；本发明的将数据流时间区段内的子数据流进行列式转换并压缩，从而提高了数据缓存资源的利用率；本发明中数据流缓存资源与元信息索引的低耦合处理更适应在分布式系统架构下的部署实现，同时采用延迟写出的策略有效提高对于数据流存储的操作效率和可靠性。

附图说明

图1是本发明第一实施方式的流程图；

图2是本发明第二实施方式的结构方框图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的第一实施方式涉及一种面向大数据的数据流式缓存方法，如图1所示，包括以下步骤：

步骤(1)，在数据流到达系统时，实时完成对数据流中每项记录信息的时间戳标记，以形成时间序列的索引。

步骤(2)，通过对数据流到达系统的流速分析，选择在预先配置好的基础数据量限定下的最小时间切片完成数据流时间区段的自动分片处理，得到多个分片的子数据流。由于数据流到达系统的流速并非恒定，因此该时间区段的选择也需要在预先配置好的时间长度上进行周期性的动态调整，例如，数据量大时，时间区段较短，数据量较小时，时间区段较长。本实施方式中数据流基于流式数据到达系统的时间戳实时自动分片处理，能够适应动态的数据流速提高对数据流缓存的颗粒精细度。

步骤(3)，在完成步骤(2)的数据流时间区段自动分片后，对于每个分片中的子数据流的数据信息按预先配置好的可缓存数据列进行列式转换，并进一步完成对同一数据列的实时压缩后形成缓存数据块。本实施方式将数据流时间区段内的子数据流进行列式转换并压缩，提高了数据缓存资源的利用率。

步骤(4)，在预先配置好的数据流缓存资源池中按步骤(3)所形成的缓存数据块的大小分配适合的空闲数据流缓存资源，并将步骤(3)形成的缓存数据块写入所分配的数据流缓存资源，同时将该缓存数据块所对应的数据流时间区段与可缓存数据列的元信息写入数据流缓存资源分配索引中备查。本实施方式中数据流缓存资源与元信息索引的低耦合处理更适应在分布式系统架构下的部署实现。

步骤(5)，当需要对数据流缓存读取访问时，通过对数据流缓存资源的索引按数据流时间区段与可缓存数据列的元信息进行查询，可以找到此前分配并写入的数据流缓存资源。通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，即可获得缓存的数据列数据内容。

步骤(6)，当需要对数据流缓存写入访问时，通过对数据流缓存资源的索引按数据流时间区段与可缓存数据列的元信息进行查询，可以找到此前分配并写入的数据流缓存资源。通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，即可获得缓存的数据列数据内容。之后可以对需要修改的数据信息进行更新替换，并重新压缩为需要更换的缓存数据块，再重新写入数据流缓存资源。同时在数据流缓存资源的元信息上会增加数据流存储待更新的标记，并通过步骤(6a)在系统闲时以延迟写出的方式对数据流存储执行相应的更新操作。在数据流存储的更新操作执行完成后数据流缓存资源的元信息上数据流存储待更新的标记会被清除。本实施方式采用延迟写出的策略有效提高对于数据流存储的操作效率和可靠性。

步骤(7)，当不再需要数据流缓存资源或由于数据流缓存资源池耗尽需要淘汰已分配的数据流缓存资源时，通过对数据流缓存资源的元信息索引进行查询，可以找到需要释放的数据流缓存资源。此时如果数据流缓存资源的元信息上存在数据流存储待更新的标记，则会通过步骤(7a)即时对数据流存储执行相应的更新操作。在数据流存储的更新操作执行完成后，数据流缓存资源会清零重置同时数据流缓存资源的元信息索引也会同步更新。相应的数据流缓存资源被归还到数据流缓存资源池中待后续使用分配。

本发明的第一实施方式涉及一种面向大数据的数据流式缓存系统，如图2所示，包括：时间序列索引形成模块，用于完成对到达系统的数据流中每项记录信息的时间戳标记，形成时间序列索引；分片形成模块，用于选择时间切片，并基于所述时间序列索引完成数据流时间区段的自动分片处理，得到多个分片的子数据流；缓存数据块形成模块，用于对每个分片的子数据流中的数据信息按预先配置好的可缓存数据列进行列式转换，完成对同一数据列的实时压缩，形成缓存数据块；数据缓存模块，用于在预先配置好的数据流缓存资源池中按所述缓存数据块的大小分配空闲的数据流缓存资源，并将所述缓存数据块写入所述数据流缓存资源。

所述的面向大数据的数据流式缓存系统还包括写入访问模块，用于通过对所述数据流缓存资源的索引按所述数据流时间区段与所述可缓存数据列的元信息进行查询，找到分配并写入的数据流缓存资源，通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，获得缓存的数据列数据内容，之后对需要修改的数据信息进行更新替换，并重新压缩为需要更换的缓存数据块，重新写入数据流缓存资源。在重新写入数据流缓存资源时，在所述数据流缓存资源的元信息上增加数据流存储待更新的标记，并在系统闲时以延迟写出的方式对数据流存储执行相应的更新操作。

所述的面向大数据的数据流式缓存系统还包括清除模块，用于通过对所述数据流缓存资源的元信息索引进行查询，找到需要释放的数据流缓存资源，如果数据流缓存资源的元信息上存在数据流存储待更新的标记，则即时对数据流存储执行相应的更新操作，在数据流存储的更新操作执行完成后，所述数据流缓存资源会清零重置，同时数据流缓存资源的元信息索引进行同步更新，所述数据流缓存资源被归还到数据流缓存资源池中待后续使用分配。

不难发现，本发明中数据流基于流式数据到达系统的时间戳实时自动分片处理，能够适应动态的数据流速提高对数据流缓存的颗粒精细度；本发明的将数据流时间区段内的子数据流进行列式转换并压缩，从而提高了数据缓存资源的利用率；本发明中数据流缓存资源与元信息索引的低耦合处理更适应在分布式系统架构下的部署实现，同时采用延迟写出的策略有效提高对于数据流存储的操作效率和可靠性。

Claims

1.一种面向大数据的数据流式缓存方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向大数据的数据流式缓存方法，其特征在于，所述步骤(4)中还将所述缓存数据块所对应的数据流时间区段与所述可缓存数据列的元信息写入所述数据流缓存资源的索引中。

3.根据权利要求2所述的面向大数据的数据流式缓存方法，其特征在于，当需要对数据流缓存读取访问时，通过对所述数据流缓存资源的索引按所述数据流时间区段与所述可缓存数据列的元信息进行查询，找到分配并写入的数据流缓存资源，通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，获得缓存的数据列数据内容。

4.根据权利要求2所述的面向大数据的数据流式缓存方法，其特征在于，当需要对数据流缓存写入访问时，通过对所述数据流缓存资源的索引按所述数据流时间区段与所述可缓存数据列的元信息进行查询，找到分配并写入的数据流缓存资源，通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，获得缓存的数据列数据内容，之后对需要修改的数据信息进行更新替换，并重新压缩为需要更换的缓存数据块，重新写入数据流缓存资源。

5.根据权利要求4所述的面向大数据的数据流式缓存方法，其特征在于，在重新写入数据流缓存资源时，在所述数据流缓存资源的元信息上增加数据流存储待更新的标记，并在系统闲时以延迟写出的方式对数据流存储执行相应的更新操作。

6.根据权利要求2所述的面向大数据的数据流式缓存方法，其特征在于，当需要对数据流缓存进行清除操作时，通过对所述数据流缓存资源的元信息索引进行查询，找到需要释放的数据流缓存资源，如果数据流缓存资源的元信息上存在数据流存储待更新的标记，则即时对数据流存储执行相应的更新操作，在数据流存储的更新操作执行完成后，所述数据流缓存资源会清零重置，同时数据流缓存资源的元信息索引进行同步更新，所述数据流缓存资源被归还到数据流缓存资源池中待后续使用分配。

7.一种面向大数据的数据流式缓存系统，其特征在于，包括：

时间序列索引形成模块，用于完成对到达系统的数据流中每项记录信息的时间戳标记，形成时间序列索引；

分片形成模块，用于选择时间切片，并基于所述时间序列索引完成数据流时间区段的自动分片处理，得到多个分片的子数据流；

缓存数据块形成模块，用于对每个分片的子数据流中的数据信息按预先配置好的可缓存数据列进行列式转换，完成对同一数据列的实时压缩，形成缓存数据块；

数据缓存模块，用于在预先配置好的数据流缓存资源池中按所述缓存数据块的大小分配空闲的数据流缓存资源，并将所述缓存数据块写入所述数据流缓存资源。

8.根据权利要求7所述的面向大数据的数据流式缓存系统，其特征在于，还包括索引写入模块，用于将所述缓存数据块所对应的数据流时间区段与所述可缓存数据列的元信息写入所述数据流缓存资源的索引中。

9.根据权利要求7所述的面向大数据的数据流式缓存系统，其特征在于，还包括读取访问模块，用于通过对所述数据流缓存资源的索引按所述数据流时间区段与所述可缓存数据列的元信息进行查询，找到分配并写入的数据流缓存资源，通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，获得缓存的数据列数据内容。

10.根据权利要求7所述的面向大数据的数据流式缓存系统，其特征在于，还包括写入访问模块，用于通过对所述数据流缓存资源的索引按所述数据流时间区段与所述可缓存数据列的元信息进行查询，找到分配并写入的数据流缓存资源，通过读取数据流缓存资源中保存的缓存数据块并进行解压缩后，获得缓存的数据列数据内容，之后对需要修改的数据信息进行更新替换，并重新压缩为需要更换的缓存数据块，重新写入数据流缓存资源。