CN114153891A

CN114153891A - 一种时间序列数据处理方法

Info

Publication number: CN114153891A
Application number: CN202111230895.4A
Authority: CN
Inventors: 唐勇骅; 曹诗蔚
Original assignee: Shanghai Baizhu Information Technology Co ltd
Current assignee: Shanghai Baizhu Information Technology Co ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-03-08

Abstract

本发明公开了一种时间序列数据处理方法，该方法通过将用户的查询指令分解为第一部分查询请求和第二部分查询请求，使服务器根据第一部分查询请求调取得到粗筛的初步查询结果，再使客户端引擎根据第二部分查询请求对初步查询结果进行精确过滤，把消耗资源的第二部分查询过程放到客户端完成，避免在服务器内部进行解压数据、过滤数据等消耗资源的处理，极大地降低了服务器的性能开销、提升了服务器的处理能力，以支持海量的时序数据查询。

Description

一种时间序列数据处理方法

技术领域

本发明涉及计算机存储技术领域，尤其涉及一种时间序列数据处理方法。

背景技术

高频行情数据是指交易过程中实时产生的数据，全球市场每天产生的数据量已经到百亿级别，单市场每天交易时间产生的数据量可以达到10亿级别。随着证券市场的发展，研究分析高频行情数据的需求越来越大，对行情数据的存储分析系统的需求也越来越大。

高频行情数据是一种时间序列数据，它不仅具备普通时序数据的特点，无需更新、时间有序；同时，它还有自身的特点，同一时间具有很多维度的属性，如行情快照数据，一条记录包含上百个相关的属性；随着量化研究工作的开展，需要向现有的时序数据中增加衍生属性，并保存到系统中，也可能删除一些衍生属性。

时序数据优选方案是采用列式存储，在存储引擎的设计方面，目前主流的列式存储格式如Parquet、ORCFile等，能提供很高的压缩效率，但普遍存在的一个问题是，整个表格包含的所有列的数据都存储在同一个文件中，不支持增加列或者删除字段的操作。一旦遇到这类需求，则需要将已有数据读入内存，在内存中合并新的列或者删除旧的列的数据，再重新生成新的数据文件。随着数据容量的增加，会消耗大量的系统资源，效率非常低，缺乏可扩展性。

传统的存储模型往往针对冷热数据进行优化。分层过程本身需要对数据进行合并、转存，定期将热数据合并到冷存储，这个过程会产生大量的IO，占用大量系统资源。对于TB级别的时间序列数据的存储系统，更是难以承受。

传统的数据库查询服务的设计上，数据查询过程都是由查询服务独立完成，对于海量的时序数据进行查询，在完成所有的筛选、过滤，就需要对压缩的数据块重新解压、过滤，而时序数据的压缩比通常都很高，该过程放在服务器端完成，会占用大量的内存资源和处理器资源，降低了服务器的并行处理能力。

发明内容

有鉴于此，本发明提供了一种时间序列数据处理方法，该方法在存储引擎的设计上采用分区、分列存储各时序数据的方式，能够在不修改现有数据文件的情况下，高效地增加、删除表格字段；通过将查询过程拆分成粗筛过程和数据精确过滤过程，并把数据精确过滤从查询服务器中分离出来，避免在查询服务器内部进行解压数据、过滤数据等消耗资源的处理，从而极大地提升了服务器的处理能力，以支持海量的时序数据查询。

一种时间序列数据处理方法，用于客户端，所述方法具体包括以下步骤：

获取用户通过客户端API发送的查询指令；

对查询指令进行处理，以将查询指令构造为第一部分查询请求和第二部分查询请求；

将第一部分查询请求发送至服务器，以使服务器根据第一部分查询请求从其按照设定的列存储方式进行存储的时间序列数据中调取相应数据块并将该初步查询结果发送给客户端；

根据第二部分查询请求对初步查询结果进行过滤，得到最终查询结果并返回给用户。

一种时间序列数据处理方法，用于服务器，所述方法具体包括以下步骤：

接收客户端发送的第一部分查询请求；

根据第一部分查询请求从其按照设定的列存储方式进行存储的时间序列数据中调取相应的数据块，得到初步查询结果；

将初步查询结果发送给客户端，以使客户端根据第二部分查询请求对初步查询结果进行过滤从而得到最终查询结果。

优选地，所述第一部分查询请求包括表名T、目标字段、分区D、主键K，

根据第一部分查询请求从其按照设定的列存储方式进行存储的时间序列数据中调取相应的数据块的具体步骤为：

根据第一部分查询请求的表名T和分区D，确定目标存储目录D/T；

从目标存储目录D/T中加载索引文件D/T/I，根据索引文件D/T/I匹配得到主键K对应的分组信息G；

读取目标存储目录D/T下包含目标字段的所有数据文件X尾部的索引块，从索引块中查询出分组信息G在对应数据文件内的偏移和尺寸，利用查询得到的偏移和尺寸读取出对应的数据块B，得到初步查询结果。

优选地，所述主键K对应的分组信息G包括主键K对应的分组在分区D内的分块起始记录号和记录数。

优选地，在确定目标存储目录之前，还需检查表名T和目标字段的有效性及权限信息，若无效即返回错误提示。

优选地，第二部分查询请求包括执行时间和其他相关字段；

根据第二部分查询请求对初步查询结果进行过滤的具体步骤为：

对初步查询结果的数据块进行解码；

根据第二部分查询请求的执行时间和其他相关字段对解码后的数据块进行过滤，得到选中记录的下标数组J；

对选中记录的下标数组J执行投影操作，得到最终查询结果。

优选地，时间序列数据按照设定的列存储方式进行存储的步骤为：

在磁盘文件系统中输入时间序列数据及其表名T，每条时间序列数据均包括数据时间、主键K、一个或多个字段F；

按照设定的时间粒度对所有的时间序列数据进行分区，每个分区D均对应创建一个存储目录D/T；

按照主键K将各分区内的时间序列数据进行分组，得到每个分区的分组信息G，将每条分组信息G分别保存为一个索引文件D/T/I并设置于对应的存储目录D/T下；

按照字段F在存储目录D/T下创建数据文件X，一个字段对应创建一个数据文件X，数据文件X包括文件头、数据块、索引块和文件尾。

优选地，按照字段F在存储目录D/T下创建数据文件X的步骤为：

在数据文件X中写入文件头信息；

根据每个分区D内各分组的分组信息G，逐个对各分组中包含有字段F的时间序列数据进行编码，得到数据块B，并将数据块B写入数据文件X；

将数据块B在当前文件块中的偏移量和尺寸信息作为索引块追加写入到数据文件X的尾部；

将索引块在当前文件块中的偏移量和尺寸信息写到文件尾。

优选地，当向磁盘文件系统中输入包含新字段的新的时间序列数据时，包括以下步骤：

当磁盘文件系统中输入新的时间序列数据及其表名和分区；

根据新的时间序列数据的表名、分区和主键，确定其所属的存储目录并从该存储目录中加载索引文件，重构出分组信息G’，将该分组信息G’保存为新的索引文件设置于该存储目录下；

按照新字段在该存储目录下创建出新的数据文件X’。

优选地，当需删除磁盘文件系统中包含某一字段的时间序列数据时，包括以下步骤：

输入表名、分区和待删除字段；

根据表面和分区确定存储目录，删除该存储目录下该待删除字段所对应的数据文件。

本发明的有益效果是：

1、本发明通过将用户的查询指令分解为第一部分查询请求和第二部分查询请求，使服务器根据第一部分查询请求调取得到粗筛的初步查询结果，再使客户端引擎根据第二部分查询请求对初步查询结果进行精确过滤，把消耗资源的第二部分查询过程放到客户端完成，避免在服务器内部进行解压数据、过滤数据等消耗资源的处理，极大地降低了服务器的性能开销、提升了服务器的处理能力，以支持海量的时序数据查询。

2、本发明通过将时间序列数据按照分区、分列的方式进行存储，具有同一相同字段的时间序列数据独立存储在一个数据文件中，当需增加或删除具有某一字段的时间序列数据时只需对应增加或删除根据该字段创建得到的数据文件即可，大大提高了TB级数据更新、删除操作的效率。

3、本发明数据存储模块的存储设计区别于传统存储方式，去掉了冷热分层的概念和合并过程，对于TB级的数据的更新、删除操作非常高效，能够高效地操作大容量的时间序列数据。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是时间序列数据处理系统的结构示意图。

图2是查询数据的流程示意图。

图3是列式数据文件的结构示意图。

图4是分组信息G示意图。

图5是时间序列数据处理方法(用于客户端)的流程示意图。

图6是时间序列数据处理方法(用于服务器)的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

为了更好的理解本发明的技术方案，下面结合附图对本发明进行详细描述。

首先介绍执行本发明实施例所给出的时间序列数据处理方法的系统，该系统用于客户端和服务端。

用于客户端的时间序列数据处理系统，包括客户端API、客户端引擎。

客户端API用于为用户提供查询接口，以调用客户端引擎处理查询指令并将从客户端引擎接收到的查询结果返回给用户。

客户端引擎用于对查询指令进行处理，以将查询指令构造为第一部分查询请求和第二部分查询请求，并将第一部分查询请求发送至服务器，以使服务器根据第一部分查询请求从数据存储模块中查询调取相应的数据块，再跟进第二部分查询请求对接收到的数据块进行解压过滤，得到最终的查询结果，将该查询结果通过客户端API返回给用户。

用于服务端的时间序列数据处理系统，包括服务器和数据存储模块。

所述服务器用于根据客户端引擎发送过来的第一部分查询请求从数据存储模块中查询调取相应的数据块并将数据块返回给客户端引擎。

所述数据存储模块用于存储时间序列数据。数据存储模块中的时间序列数据按照分区、分列的方式进行存储，具有同一相同字段的时间序列数据独立存储在一个数据文件中，当需增加或删除具有某一字段的时间序列数据时只需对应增加或删除根据该字段创建得到的数据文件即可，大大提高了TB级数据更新、删除操作的效率。

具体地，向数据存储模块中存储时间序列数据的步骤为：

S1，在磁盘文件系统中输入多条时间序列数据及其表名T，每条时间序列数据均包括数据时间、主键K、一个或多个字段F。

S2，按照设定的时间粒度对所有的时间序列数据进行分区，每个分区内是一段时间范围内的时间序列数据。分区作为增加、更新、删除操作的最小粒度。

然后，每个分区D均对应创建一个存储目录D/T。

S3，按照主键K将每个分区内的时间序列数据进行分组，具有相同主键K的时间序列数据属于同一个分组，每个分组内的时间序列数据使用稳定的排序算法进行排序，确保每个分组内部记录的时间序列数据排列的顺序保持不变。

对每个分区内的时间序列数据进行再分组后，即可得到每个分区的分组信息G，分组信息G由若干条分组记录构成，包括主键K对应的分组在其所属分区D内的分块起始记录号sn和记录数cn，如图4所示。

然后，将每条分组信息G分别保存为一个索引文件D/T/I，并将索引文件D/T/I设置于对应的存储目录D/T下。

主键K的选择按照查询模式选择。

S4，按照字段F在存储目录D/T下创建数据文件X，即具有相同字段F的时间序列数据共同构成一个数据文件，一个字段对应创建一个数据文件X。假设某分区下的所有时间序列数据中共包含2种字段：字段F₁和字段F₂，利用所有包含字段F₁的时间序列数据在存储目录D/T下创建数据文件X₁，利用所有包含字段F₂的时间序列数据在存储目录D/T下创建数据文件X₂。

数据文件X由文件头、数据块、索引块和文件尾组成。

具体地，按照字段F在存储目录D/T下创建数据文件X的步骤为：

S41，在数据文件X中写入文件头信息，文件头信息包括记录文件版本、属性值类型、编码类型和记录条数；

S42，根据每个分区D内各分组的分组信息G，逐个对各分组中包含有字段F的时间序列数据进行编码，得到数据块B(在对包含有字段F的时间序列数据进行编码的过程中，按照这些时间序列数据所对应的分组信息G进行逐个编码，同属于一个分组的时间序列数据对应生成一个数据块)，将所有的数据块B写入数据文件X，并记录每块数据块的偏移和尺寸；

S43，将所有的数据块B在当前文件块中的偏移量和尺寸信息汇总起来作为索引块追加写入到数据文件X的尾部；

S44，将索引块在当前文件块中的偏移量和尺寸信息写到文件尾，创建得到数据文件X，如图3所示。

进一步地，当向磁盘文件系统中输入包含新字段的新的时间序列数据时，包括以下步骤：

S5，向磁盘文件系统中输入新的时间序列数据及其表名和分区，新的时间序列数据也包括数据时间、主键K、一个或多个新增的新字段F’，新的时间序列数据的分区应为步骤S2中已划定分区中的其中一个分区；

S6，根据新的时间序列数据的表名、分区和主键，确定其所属的存储目录并从该存储目录中加载索引文件，按照步骤S3的方法重构出分组信息G’，将该分组信息G’保存为新的索引文件设置于该存储目录下；

S7，按照步骤S4的方法，按照新字段在该存储目录下创建出新的数据文件X’。

进一步地，当需删除磁盘文件系统中包含某一字段的时间序列数据时，包括以下步骤：

S8，输入表名、分区和待删除字段；

S9，根据表面和分区确定存储目录，删除该存储目录下该待删除字段所对应的数据文件。

基于上述时间序列数据处理系统，图5为本发明提供的时间序列数据处理方法(用于客户端)的流程示意图，如图5所示，该方法包括以下步骤：

一、获取用户通过客户端API发送的查询指令。

二、客户端引擎对查询指令进行处理，以将查询指令构造为第一部分查询请求和第二部分查询请求。

第一部分查询请求包括表名T、目标字段、分区D和主键K。

第二部分查询请求包括执行时间和其他相关字段。

三、将第一部分查询请求发送至服务器，以使服务器根据第一部分查询请求从其按照上述步骤S1-S9所述的列存储方式进行存储的时间序列数据中调取相应数据块并将该初步查询结果发送给客户端。

具体地，根据第一部分查询请求从数据存储模块中调取相应数据块的具体步骤为：

首先，根据第一部分查询请求的表名T和分区D，确定目标存储目录D/T；

然后，从目标存储目录D/T中加载索引文件D/T/I，根据索引文件D/T/I匹配得到主键K对应的分组信息G，即得到主键K对应的分组在其所属分区内的分块起始记录号和记录数；

然后，读取目标存储目录D/T下包含目标字段的所有数据文件X尾部的索引块，从索引块中查询出分组信息G在对应数据文件内的偏移和尺寸，利用查询得到的偏移和尺寸读取出对应的数据块B，得到初步查询结果。应当说明的是，第一部分查询请求中的目标字段可以为一个字段，也可为多个字段。当第一部分查询请求中的目标字段为多个字段时，逐个对各个目标字段做本步骤的处理，将得到的所有的数据块B一起构成初步查询结果发送给客户端的客户端引擎。

四、根据第二部分查询请求对初步查询结果进行过滤，得到最终查询结果并返回给用户。

具体地，根据第二部分查询请求对初步查询结果进行过滤的具体步骤为：

首先，对初步查询结果的数据块进行解码；

然后，根据第二部分查询请求的执行时间和其他相关字段对解码后的数据块进行过滤，得到选中记录的下标数组J；

最后，对选中记录的下标数组J执行投影操作，得到最终查询结果。

本发明给出一种时间序列数据处理方法通过将用户的查询指令分解为第一部分查询请求和第二部分查询请求，使服务器根据第一部分查询请求调取得到粗筛的初步查询结果，再使客户端引擎根据第二部分查询请求对初步查询结果进行精确过滤，把消耗资源的第二部分查询过程放到客户端完成，避免在服务器内部进行解压数据、过滤数据等消耗资源的处理，极大地降低了服务器的性能开销、提升了服务器的处理能力，以支持海量的时序数据查询。

图6为本发明提供的时间序列数据处理方法(用于服务器)的流程示意图，如图6所示，该方法包括以下步骤：

一、接收客户端发送的第一部分查询请求。

二、根据第一部分查询请求从其按照上述步骤S1-S9所述的列存储方式进行存储的时间序列数据中调取相应的数据块，得到初步查询结果。

三、将初步查询结果发送给客户端，以使客户端根据第二部分查询请求对初步查询结果进行过滤从而得到最终查询结果。

首先，对初步查询结果的数据块进行解码；

本发明给出一种时间序列数据处理方法通过将用户的查询指令分解为第一部分查询请求和第二部分查询请求，服务器仅根据第一部分查询请求调取得到粗筛的初步查询结果，消耗资源的第二部分查询过程放到客户端完成，避免在服务器内部进行解压数据、过滤数据等消耗资源的处理，极大地降低了服务器的性能开销、提升了服务器的处理能力，以支持海量的时序数据查询。

本发明还给出一种电子设备，该电子设备包括处理器、存储器、通讯接口等。处理器可以调用存储器中的逻辑指令，以执行上述时间序列数据处理方法，其中时间序列数据处理方法包括用于客户端的时间序列数据处理方法和用于服务器的时间序列数据处理方法。

此外，上述存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述实施例提供的时间序列数据处理方法，其中时间序列数据处理方法包括用于客户端的时间序列数据处理方法和用于服务器的时间序列数据处理方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述实施例提供的时间序列数据处理方法，其中时间序列数据处理方法包括用于客户端的时间序列数据处理方法和用于服务器的时间序列数据处理方法。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必须的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应当明确的是，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

Claims

1.一种时间序列数据处理方法，其特征在于，用于客户端，所述方法具体包括以下步骤：

获取用户通过客户端API发送的查询指令；

2.一种时间序列数据处理方法，其特征在于，用于服务器，所述方法具体包括以下步骤：

接收客户端发送的第一部分查询请求；

3.根据权利要求1或2所述的时间序列数据处理方法，其特征在于，所述第一部分查询请求包括表名T、目标字段、分区D、主键K，

4.根据权利要求3所述的时间序列数据处理方法，其特征在于，所述主键K对应的分组信息G包括主键K对应的分组在分区D内的分块起始记录号和记录数。

5.根据权利要求3所述的时间序列数据处理方法，其特征在于，在确定目标存储目录之前，还需检查表名T和目标字段的有效性及权限信息，若无效即返回错误提示。

6.根据权利要求1或2所述的时间序列数据处理方法，其特征在于，第二部分查询请求包括执行时间和其他相关字段；

对初步查询结果的数据块进行解码；

对选中记录的下标数组J执行投影操作，得到最终查询结果。

7.根据权利要求1或2所述的时间序列数据处理方法，其特征在于，时间序列数据按照设定的列存储方式进行存储的步骤为：

8.根据权利要求7所述的时间序列数据处理方法，其特征在于，按照字段F在存储目录D/T下创建数据文件X的步骤为：

在数据文件X中写入文件头信息；

将索引块在当前文件块中的偏移量和尺寸信息写到文件尾。

9.根据权利要求7所述的时间序列数据处理方法，其特征在于，当向磁盘文件系统中输入包含新字段的新的时间序列数据时，包括以下步骤：

向磁盘文件系统中输入新的时间序列数据及其表名和分区；

按照新字段在该存储目录下创建出新的数据文件X’。

10.根据权利要求7所述的时间序列数据处理方法，其特征在于，当需删除磁盘文件系统中包含某一字段的时间序列数据时，包括以下步骤：

输入表名、分区和待删除字段；