CN112632073A

CN112632073A - 一种时序特征数据表的存储方法及装置

Info

Publication number: CN112632073A
Application number: CN202011547306.0A
Authority: CN
Inventors: 包新启; 王太泽; 陈迪豪; 陈靓; 王子贤; 邓龙; 王豹; 孔全; 穆妮
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-09
Anticipated expiration: 2040-12-24

Abstract

本发明公开了一种时序特征数据表的存储方法及装置，涉及计算机技术领域，主要目的在于降低存储和提取时序特征数据表中数据时的带宽消耗；主要技术方案包括：将时序特征数据表所包括的行数据拆分为多个行数据段，其中，各所述行数据段包括的行数据不重合；针对每一个所述行数据段分别执行：将所述行数据段涉及的列划分为至少两个列分组，以行存储的形式存储每一个所述列分组所涉及的数据，其中，每一个所述列分组包括至少一列，且各所述列分组中包括的列不重合。

Description

一种时序特征数据表的存储方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种时序特征数据表的存储方法及装置。

背景技术

时序特征数据表是机器学习的重要依据之一，其存储的方法直接影响着机器学习对时序特征的使用情况。

目前，时序特征数据表的存储方法包括如下两种：第一种是，时序特征数据表以行存储的方法存储。行存储的写入是一次性完成，存储消耗的时间较少，并且能够保证数据的完整性，但是在时序特征数据提取过程中，行存储通常将一行数据完全读出，如果只需要其中几列数据的情况，就会存在冗余列，读取数量大可能会影响到数据的处理效率。第二种是，时序特征数据表以列存储的方法存储。列存储在对于特定的时序特征计算，如果特征计算只依赖部分列，可以从列存储中只读取计算相关的列数据，而不会读取冗余数据，从而降低内存带宽消耗。但是，列存储由于需要把一行记录拆分成单列保存，其不适合做写入更新，且列存储不容易进行时序索引，需要对每个列的存储数据分别进行索引。

综上，现有的时序特征数据表的存储方法均存在其各自的缺陷，亟需一种时序特征数据表的存储方法来克服现有的时序特征数据表的存储方法存在的缺陷。

发明内容

有鉴于此，本发明提出了一种时序特征数据表的存储方法及装置，主要目的在于降低存储和提取时序特征数据表中数据时的带宽消耗。

第一方面，本发明提供了一种时序特征数据表的存储方法，该方法包括：

将时序特征数据表所包括的行数据拆分为多个行数据段，其中，各所述行数据段包括的行数据不重合；

针对每一个所述行数据段分别执行：将所述行数据段涉及的列划分为至少两个列分组，以行存储的形式存储每一个所述列分组所涉及的数据，其中，每一个所述列分组包括至少一列，且各所述列分组中包括的列不重合。

第二方面，本发明提供了一种时序特征数据表的存储装置，该装置包括：

拆分单元，用于将时序特征数据表所包括的行数据拆分为多个行数据段，其中，各所述行数据段包括的行数据不重合；

存储单元，用于针对每一个所述行数据段分别执行：将所述行数据段涉及的列划分为至少两个列分组，以行存储的形式存储每一个所述列分组所涉及的数据，其中，每一个所述列分组包括至少一列，且各所述列分组中包括的列不重合。

第三方面，本发明提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行第一方面所述的时序特征数据表的存储方法。

第四方面，本发明提供了一种存储管理设备，所述存储管理设备包括：存储器，用于存储程序；处理器，耦合至所述存储器，用于运行所述程序以执行第一方面所述的时序特征数据表的存储方法。

借由上述技术方案，本发明提供的时序特征数据表的存储方法及装置，在存储时序特征数据表时，首先将时序特征数据表所包括的行数据拆分为行数据不重合的多个行数据段。然后将各行数据段涉及的列划分为两个或两个以上的列分组，以行存储的形式存储各行数据段的每一个列分组所涉及的数据。可见，本发明提供的方案中时序特征数据表的存储方式，兼容了行数据段和列分组。因此在时序特征数据表中提取数据，直接提取所需列字段数据，而不需要返回行数据的全部列字段数据，而在时序特征数据表中需要写入数据时，直接以列分组形式即可。故，本发明提供的方案能够降低存储和提取时序特征数据表中数据时的带宽消耗。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例提供的一种时序特征数据表的存储方法的流程图；

图2示出了本发明另一个实施例提供的一种时序特征数据表的存储方法的流程图；

图3示出了本发明又一个实施例提供的一种时序特征数据表的存储方法的流程图；

图4示出了本发明一个实施例提供的一种时序特征数据表的存储装置的结构示意图；

图5示出了本发明另一个实施例提供的一种时序特征数据表的存储装置的结构示意图。

具体实施方式

下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本发明实施例提供了一种时序特征数据表的存储方法，该方法主要包括：

101、将时序特征数据表所包括的行数据拆分为多个行数据段，其中，各所述行数据段包括的行数据不重合。

时序特征数据表是由多行和多列构成的数据表格，其用于存储时序特征计算时所使用的时序特征。时序特征数据表中包括有时间列、主键列以及特征列，其中，时序特征计算所涉及特征的种类越多，则特征列的数量越多，每一种特征对应一个特征列。各列中属于同一行的数据组成时序特征数据表中的一行。

时序特征数据表的主键列和时间列构成了二级索引，在需要基于时序特征数据表进行时序特征计算时，通常可通过二级索引对时序特征数据表中提取特定主键和特定时间范围内的特征进行特征计算。示例性的，时序特征数据表为金融场景下的银行流水交易表，该表中包括有主键列和时间列，其中，主键列为用户ID，主键列和时间列构成了二级索引，则可基于该二级索引快速的查询出2009-2010年用户AA的所有流水记录。

时序特征数据表中列所涉及特征的种类以及每列所涉及的值的数量均可基于时序特征计算的具体需求确定，本实施例中不做具体限定。示例性，如表-1所示，表-1中包括有四列和七行，其中，四列分别为时间列“时间”、主键列“用户ID”、特征列“交易金额”以及特征列“交易地点”。

表-1

时间	用户ID	交易金额	交易地点
				2020.1.1	张三	11	北京
2020.1.2	张三	21	上海
				2020.1.3	张三	31	伦敦
2020.1.1	李四	41	香港
				2020.1.2	李四	51	纽约
2020.1.3	李四	61	巴黎
				2020.1.4	李四	71	深圳

为了保证用户能够基于时间列和主键列对时序特征数据表中特定主键和时间范围内的特征进行提取以供时序特征计算，则在存储时序特征数据时，需要先对时序特征数据表所包括的行数据拆分为多个行数据。在拆分时基于时序特征数据表包括的时间列的值和主键列的值进行，下面对时序特征数据表所包括的行数据拆分为多个行数据的具体过程进行说明，该过程包括如下步骤一和步骤二：

步骤一，从特定接口读取行数据段的拆分策略，其中，拆分策略中包括每一行数据段对应的主键列的值以及特定时间区间。

需要说明的是，同一行数据段的各行数据的主键列的值相同，且各行数据的时间列的值包括在特定时间区间内；不同行数据段的各行数据的主键列的值不同或所涉及的特定时间区间不同。

示例性的，从特定接口读取行数据端的拆分策略中，第一个行数据段对应的主键列的值为“张三”以及对应的特定时间区间为“[2020.1.1，2020.1.3)”，第二个行数据段对应的主键列的值为“张三”以及对应的特定时间区间为“[2020.1.3，2020.1.4)”，第三个行数据段对应的主键列的值为“李四”以及对应的特定时间区间为“[2020.1.1,2020.1.3)”，第四个行数据段对应的主键列的值为“李四”以及对应的特定时间区间为“[2020.1.3,2020.1.4)”。

步骤二，依据拆分策略，基于时序特征数据表包括的时间列的值和主键列的值，将时序特征数据表拆分为多个行数据段。

在对时序特征数据表拆分为多个行数据段时，各行数据段包括的行数据不重合，且各行数据段能够完全复原时序特征数据表，也就是说，拆分出的行数据段不遗漏时序特征数据表中的行数据。

时序特征数据表拆分后的多个行数据段中，同一行数据段的各行数据的主键列的值相同，且各行数据的时间列的值包括在特定时间区间内。不同行数据段的各行数据的主键列的值不同或所涉及的特定时间区间不同。

示例性的，按照上述的拆分策略将表-1所示的时序特征表所包括的行数据拆分为如下表-2、表-3、表-4、表-5所示的行数据段。

表-2为行数据段1，其主键列的值为“张三”，特定时间区间为“[2020.1.1，2020.1.3)”。

表-2

2020.1.1	张三	11	北京
				2020.1.2	张三	21	上海

表-3为行数据段2，其主键列的值为“张三”，特定时间区间为“[2020.1.3，2020.1.4)”。

表-3

2020.1.3

张三

31

伦敦

表-4为行数据段3，其主键列的值为“李四”，特定时间区间为“[2020.1.1，2020.1.3)”。

表-4

2020.1.1	李四	41	香港
				2020.1.2	李四	51	纽约

表-5为行数据段4，其主键列的值为“李四”，特定时间区间为“[2020.1.3，2020.1.4)”。

表-5

2020.1.3	李四	61	巴黎
				2020.1.4	李四	71	深圳

从上述表-2至表-5中可以看出，同一行数据段的各行数据的主键列的值相同，且各行数据的时间列的值包括在特定时间区间内。不同行数据段的各行数据的主键列的值不同或所涉及的特定时间区间不同。且，各行数据段包括的行数据不重合，且所有的行数据段中包括的行数据没有遗漏时序特征数据表“表-1”中的行数据。

102、针对每一个所述行数据段分别执行：将所述行数据段涉及的列划分为至少两个列分组，以行存储的形式存储每一个所述列分组所涉及的数据，其中，每一个所述列分组包括至少一列，且各所述列分组中包括的列不重合。

在进行时序特征计算时，为了降低提取时序特征数据表中数据时的带宽消耗，则需要将各行数据段涉及的列划分为两个或两个以上的列分组。列分组指所有的列被划分为两个或多个不相交的组，但是一个列分组组内数据还是按照行存储的形式存储，每一行数据在对应的列分组内的列字段被存放在一起并在内存中连续。不同行数据段可以拥有相同或不同的列分组配置。这种存储方式，在需要提取时序特征数据表中特定列的数据时，不需要读取整个行再寻找特定列的数据，能够直接定位到特定列的数据，从而能够减少带宽消耗。

各行数据段列分组的划分原则与时序特征数据表所涉及的时序特征计算有关，列分组的划分应能够保证在时序特征计算从时序特征数据表中提取数据时，消耗最小的带宽。

在将一个行数据段所涉及的列划分为两个或两个以上的列分组时，至少可以依据如下两种方法进行：

第一种，通过预设接口读取列分组策略，基于列分组策略将行数据段涉及的列划分为至少两个列分组。

具体的，列分组策略用于限定如何进行列分组划分，也就是说，其限定将哪些列划分为一个列分组。列分组策略存储在特定位置，其是业务人员基于与时序特征数据表所涉及的时序特征计算而定的，列分组策略中的列分组的划分应能够保证在时序特征计算从时序特征数据表中提取数据时，消耗最小的带宽。

具体的，在读取到列分组策略之后，基于该列分组策略，将行数据段涉及的列分组分别划分为至少两个列分组。

示例性的，列分组策略中限定时间列和用户ID列划分为一个列分组，交易金额列和交易地点列划分为一个列分组。则每个行数据段都按照[时间，用户][交易金额，交易地点]分为两个列分组。

第二种，选取至少两种特定时序特征计算，并确定每种特定时序特征计算在时序特征数据表中所依赖的列集合；定义至少两个列分组集合，其中，各所述列分组集合中分别包括至少两个列分组；基于所述至少两个列分组集合以及每种所述特定时序特征计算的列集合，确定每种所述特定时序特征计算在不同列分组集合下的列覆盖度；基于每种所述特定时序特征计算在不同列分组集合下的列覆盖度，从至少两个列分组集合中选取目标列分组集合；将所述行数据段涉及的列划分为所述目标列分组集合包括的至少两个列分组。

具体的，此种方式各行数据段列分组的划分原则与时序特征数据表所涉及的时序特征计算有关，其是通过各时序特征计算在各种不同的列分组集合下产生的列覆盖，从多个列分组集合中选取带宽消耗最小的列分组集合对行数据段进行分组，因此列分组的划分应能够保证在时序特征计算从时序特征数据表中提取数据时，消耗最小的带宽。

示例性的，行数据段都按照[时间，用户][交易金额，交易地点]分为两个列分组，则对应表-2至表-5各行数据段的存储格式为：

行数据段1：

列分组1-1[2020.1.1,张三][2020.1.2,张三]

列分组1-2[11,北京][21,上海]

行数据段2：

列分组1-1[2020.1.3,张三]

列分组1-2[31,伦敦]

行数据段3：

列分组1-1[2020.1.1,李四][2020.1.2,李四]

列分组1-2[41,香港][51,纽约]

行数据段4：

列分组1-1[2020.1.3,李四][2020.1.4,李四]

列分组1-2[61,巴黎][71,深圳]

本实施例中的这种时序特征数据表的存储方式，兼容了行数据段和列分组的二级索引。其中，一级索引为主键索引，通过给定主键列的值，就能够索引到主键列相同的所有数据。二级索引为时间列索引，给定特定时间区间，通过时间列索引便能够查找到时序特征数据表中所有包括该特定时间区间内时间的行数据段的位置，并在每一个行数据段下，所有列分组中符合特定条件的行数据的位置。

在时序特征数据表存储之后，可定义查询接口，该查询接口包括如下：参数1“主键列的值”、参数2“时间列的值”(可定义时间区间)、参数3“列名列表”，在进行时序特征计算时，可通过查询接口输入相应的三个参数对应的查询数值，则将直接从时序特征数据表中提取与查询数值对应的数据，而不需要返回行数据的全部列字段数据，从而可以有效降低带宽消耗。

本发明实施例提供的时序特征数据表的存储方法，在存储时序特征数据表时，首先将时序特征数据表所包括的行数据拆分为行数据不重合的多个行数据段。然后将各行数据段涉及的列划分为两个或两个以上的列分组，以行存储的形式存储各行数据段的每一个列分组所涉及的数据。可见，本发明实施例提供的方案中时序特征数据表的存储方式，兼容了行数据段和列分组。因此在时序特征数据表中提取数据，直接提取所需列字段数据，而不需要返回行数据的全部列字段数据，而在时序特征数据表中需要写入数据时，直接以列分组形式即可。故，本发明实施例提供的方案能够降低存储和提取时序特征数据表中数据时的带宽消耗。

进一步的，根据图1所示的方法，本发明的另一个实施例还提供了一种时序特征数据表的存储方法，如图2所示，所述方法主要包括：

201、基于时序特征数据表包括的时间列的值和主键列的值，将所述时序特征数据表拆分为多个行数据段，其中，同一所述行数据段的各行数据的主键列的值相同，且各行数据的时间列的值包括在特定时间区间内；不同行数据段的各行数据的主键列的值不同或所涉及的特定时间区间不同。

示例性的，存在如表-1的时序特征数据表，基于时序特征数据表“表-1”包括的时间列的值和主键列的值，将表-1所包括的行数据拆分为如表2-表-5所示的四个行数据段。

202、针对每一个所述行数据段分别执行：选取至少两种特定时序特征计算，并确定每种所述特定时序特征计算在所述时序特征数据表中所依赖的列集合。

在实际应用中，选取的特定时序特征计算为依据时序特征数据表中记载的特征能够完成的计算，也就是说，一个特定时序特征计算需依赖于时序特征数据表中一列或多列完成，该特征时序特征计算所依赖列的数量小于或等于时序特征数据表中的总列数。对于选取的不同特定时序特征计算，依赖的列不同。

为了保证时序特征数据表的存储能够保证在时序特征计算从时序特征数据表中提取数据时，消耗最小的带宽。则选取的多种特定时序特征计算应尽可能覆盖时序特征数据表中的列。

在选定两种或两种以上的特定时序特征计算时，需要确定每种特定时序特征计算在时序特征数据表中所依赖的列集合。每种特定时序特征计算对应的列集合中应包括该种特定时序特征计算所依赖的所有列。

203、定义至少两个列分组集合，其中，各所述列分组集合中分别包括至少两个列分组。

每一个列分组集合均是针对时序特征数据表的一个列分组的方式，一个列分组集合中包括有两个或两个以上的列分组，且两个列分组中的列不重合，且也没有遗漏时序特征数据表中的列。

204、基于所述至少两个列分组集合以及每种所述特定时序特征计算的列集合，确定每种所述特定时序特征计算在不同列分组集合下的列覆盖度。

为了确定各列分组集合与每种特定时序特征计算的列集合的匹配度，则需要确定每种特定时序特征计算在不同列分组集合下的列覆盖度，该列覆盖度的确定方法为：

在同一列分组集合下，针对每一种特定时序特征计算分别执行：确定列分组集合中目标列分组的总量，其中，目标列分组中包含有特定时序特征计算的列集合中的列；将总量确定为特定时序特征计算在列分组集合下的列覆盖度。

示例性的，待存储的时序特征数据表1中包括有主键列“Cpk”、时间列“Cts”、特征列“Ct1、Ct2、Ct3”。选取特定时序特征计算1和特定时序特征计算2，其中，特定时序特征计算1所依赖的列集合为“Cpk、Cts、Ct1”，特定时序特征计算2所依赖的列集合为“Cpk、Cts、Ct2、Ct3”。定义了两个列分组集合，其中，列分组集合1包括列分组1[Cts，Cpk]和列分组2[Ct1，Ct2，Ct3]；列分组集合2包括列分组1[Cts，Cpk]、列分组2[Ct1，Ct2]和列分组3[Ct3]。

在列分组集合1下，针对特定时序特征计算1执行：列分组集合1中的列分组1和列分组2均包含有特定时序特征计算1的列集合，则确定列分组集合1中目标列分组的总量为2，将2确定为特定时序特征计算1在列分组集合1下的列覆盖度。

在列分组集合2下，针对特定时序特征计算1执行：列分组集合2中的列分组1、列分组2均包含有特定时序特征计算1的列集合，则确定列分组集合2中目标列分组的总量为2，将2确定为特定时序特征计算1在列分组集合2下的列覆盖度。

在列分组集合1下，针对特定时序特征计算2执行：列分组集合1中的列分组1和列分组2均包含有特定时序特征计算2的列集合，则确定列分组集合1中目标列分组的总量为2，将2确定为特定时序特征计算2在列分组集合1下的列覆盖度。

在列分组集合2下，针对特定时序特征计算2执行：列分组集合2中的列分组1、列分组2以及列分组3均包含有特定时序特征计算1的列集合，则确定列分组集合2中目标列分组的总量为3，将3确定为特定时序特征计算1在列分组集合2下的列覆盖度。

205、基于每种所述特定时序特征计算在不同列分组集合下的列覆盖度，从至少两个列分组集合中选取目标列分组集合。

具体的，基于每种特定时序特征计算在不同列分组集合下的列覆盖度，从至少两个列分组结合中选取目标列分组集合的过程至少包括如下步骤一至步骤二：

步骤一、确定每种所述特定时序特征计算在同一列分组集合下的列覆盖度的总和。

本步骤的实现方法至少包括如下两种：

第一种，将每种特定时序特征计算在同一列分组集合下的列覆盖度的加和，确定为所述总和。

示例性的，对于步骤204中的示例，在列分组集合1下，特定时序特征计算1的列覆盖度“2”与特定时序特征2的列覆盖度“2”的加和“4”，确定为上述两种特定时序特征计算在列分组集合1下的列覆盖度。在列分组集合2下，在列分组集合2下，特定时序特征计算2的列覆盖度“2”与特定时序特征2的列覆盖度“3”的加和“5”，确定为上述两种特定时序特征计算在列分组集合2下的列覆盖度。

第二种，将每种所述特定时序特征计算在同一列分组集合下的列覆盖度分别与每种所述特定时序特征计算的预设权重进行乘积；将各乘积的加和确定为所述总和。

具体的，每种特定时序特征计算均存在预设权重，该权重可根据特定时序特征计算负载的重要程度或计算速度要求确定。

步骤二、基于不同列分组集合下的列覆盖度的总和，将最小的总和对应的列分组集合选取为所述目标列分组集合。

由于，列覆盖度的总和能够反映出特定时序特征计算实际计算时所依赖的存储列数的带宽消耗的大小，因此在确定出不同列分组集合下的列覆盖度的总和之后，可将最小的列覆盖度总和对应的列分组集合选取为目标列分组集合。该目标列分组集合所涉及的列分组方式为最优的列分组方式，其能够保证在时序特征计算从时序特征数据表中提取数据时，消耗最小的带宽。

示例性，上述列分组集合1下的列覆盖度“4”小于列分组集合2下的列覆盖度“5”，故选取列分组集合1为目标列分组集合。

需要说明的是，若存在两个或两个以上的列分组集合的列覆盖度的总和相同，且均为最小的列覆盖度总和，则可依据如下两种方法选取目标列分组集合：一是，将具有相同的列覆盖度总和对应的列分组集合提供给用户选取，将用户选取的列分组结合确定为目标列分组集合。二是，从具有相同的列覆盖度总和对应的列分组集合中随机选取一个列分组集合为目标列分组集合。

206、将所述行数据段涉及的列划分为所述目标列分组集合包括的至少两个列分组，以行存储的形式存储每一个所述列分组所涉及的数据，其中，每一个所述列分组包括至少一列，且各所述列分组中包括的列不重合。

在确定出目标列分组集合之后，直接将行数据段涉及的列划分为目标列分组集合包括的至少两个列分组即可。

示例性的，选取列分组集合1为目标列分组集合，则将时序特征数据表1中的行数据段划分为列分组集合1包括的列分组1[Cts，Cpk]和列分组2[Ct1，Ct2，Ct3]。

进一步的，根据图1所示的方法，本发明的另一个实施例还提供了一种时序特征数据表的存储方法，如图3所示，所述方法主要包括：

301、基于所述时序特征数据表包括的时间列的值和主键列的值，将所述时序特征数据表拆分为多个行数据段，其中，同一所述行数据段的各行数据的主键列的值相同，且各行数据的时间列的值包括在特定时间区间内；不同行数据段的各行数据的主键列的值不同或所涉及的特定时间区间不同。

302、通过预设接口读取列分组策略，其中，所述列分组策略用于限定如何进行列分组。

进一步的，依据上述方法实施例，本发明的另一个实施例还提供了一种时序特征数据表的存储装置，如图4所示，所述装置包括：

拆分单元41，用于将时序特征数据表所包括的行数据拆分为多个行数据段，其中，各所述行数据段包括的行数据不重合；

存储单元42，用于针对每一个所述行数据段分别执行：将所述行数据段涉及的列划分为至少两个列分组，以行存储的形式存储每一个所述列分组所涉及的数据，其中，每一个所述列分组包括至少一列，且各所述列分组中包括的列不重合。

本发明实施例提供的时序特征数据表的存储装置，在存储时序特征数据表时，首先将时序特征数据表所包括的行数据拆分为行数据不重合的多个行数据段。然后将各行数据段涉及的列划分为两个或两个以上的列分组，以行存储的形式存储各行数据段的每一个列分组所涉及的数据。可见，本发明实施例提供的方案中时序特征数据表的存储方式，兼容了行数据段和列分组。因此在时序特征数据表中提取数据，直接提取所需列字段数据，而不需要返回行数据的全部列字段数据，而在时序特征数据表中需要写入数据时，直接以列分组形式即可。故，本发明实施例提供的方案能够降低存储和提取时序特征数据表中数据时的带宽消耗。

可选的，如图5所示，所述拆分单元41，用于基于所述时序特征数据表包括的时间列的值和主键列的值，将所述时序特征数据表拆分为多个行数据段，其中，同一所述行数据段的各行数据的主键列的值相同，且各行数据的时间列的值包括在特定时间区间内；不同行数据段的各行数据的主键列的值不同或所涉及的特定时间区间不同。

可选的，如图5所示，所述存储单元42包括：

第一选取模块421，用于选取至少两种特定时序特征计算，并确定每种所述特定时序特征计算在所述时序特征数据表中所依赖的列集合；

定义模块422，用于定义至少两个列分组集合，其中，各所述列分组集合中分别包括至少两个列分组；

确定模块423，用于基于所述至少两个列分组集合以及每种所述特定时序特征计算的列集合，确定每种所述特定时序特征计算在不同列分组集合下的列覆盖度；

第二选取模块424，用于选取基于每种所述特定时序特征计算在不同列分组集合下的列覆盖度，从至少两个列分组集合中选取目标列分组集合；

第一划分模块425，用于将所述行数据段涉及的列划分为所述目标列分组集合包括的至少两个列分组。

可选的，如图5所示，所述确定模块423，用于在同一列分组集合下，针对每一种所述特定时序特征计算分别执行：确定所述列分组集合中目标列分组的总量，其中，所述目标列分组中包含有所述特定时序特征计算的列集合中的列；将所述总量确定为所述特定时序特征计算在所述列分组集合下的列覆盖度。

可选的，如图5所示，所述第二选取模块424包括：

确定子模块4241，用于确定每种所述特定时序特征计算在同一列分组集合下的列覆盖度的总和；

选取子模块4242，用于基于不同列分组集合下的列覆盖度的总和，将最小的总和对应的列分组集合选取为所述目标列分组集合。

可选的，如图5所示，所述确定子模块4241，用于将每种所述特定时序特征计算在同一列分组集合下的列覆盖度分别与每种所述特定时序特征计算的预设权重进行乘积；将各乘积的加和确定为所述总和。

可选的，如图5所示，所述存储单元42包括：

读取模块426，用于通过预设接口读取列分组策略，其中，所述列分组策略用于限定如何进行列分组；

第二划分模块427，用于基于所述列分组策略，将所述行数据段涉及的列划分为至少两个列分组。

本发明实施例提供的时序特征数据表的存储装置中，各个功能模块运行过程中所采用的方法详解可以参见图1至图3方法实施例的对应方法详解，在此不再赘述。

进一步的，依据上述实施例，本发明的另一个实施例还提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行图1或图2或图3所述的时序特征数据表的存储方法。

进一步的，依据上述实施例，本发明的另一个实施例还提供了一种存储管理设备，所述存储管理设备包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于运行所述程序以执行图1或图2或图3所述的时序特征数据表的存储方法。

本发明公开了如下技术方案：

A1.一种时序特征数据表的存储方法，包括：

A2.根据A1所述的方法，将时序特征数据表所包括的行数据拆分为多个行数据段，包括：

基于所述时序特征数据表包括的时间列的值和主键列的值，将所述时序特征数据表拆分为多个行数据段，其中，同一所述行数据段的各行数据的主键列的值相同，且各行数据的时间列的值包括在特定时间区间内；不同行数据段的各行数据的主键列的值不同或所涉及的特定时间区间不同。

A3.根据A1所述的方法，将所述行数据段涉及的列划分为至少两个列分组，包括：

选取至少两种特定时序特征计算，并确定每种所述特定时序特征计算在所述时序特征数据表中所依赖的列集合；

定义至少两个列分组集合，其中，各所述列分组集合中分别包括至少两个列分组；

基于所述至少两个列分组集合以及每种所述特定时序特征计算的列集合，确定每种所述特定时序特征计算在不同列分组集合下的列覆盖度；

基于每种所述特定时序特征计算在不同列分组集合下的列覆盖度，从至少两个列分组集合中选取目标列分组集合；

将所述行数据段涉及的列划分为所述目标列分组集合包括的至少两个列分组。

A4.根据A3所述的方法，基于所述至少两个列分组集合以及每种所述特定时序特征计算的列集合，确定每种所述特定时序特征计算在不同列分组集合下的列覆盖度，包括：

在同一列分组集合下，针对每一种所述特定时序特征计算分别执行：确定所述列分组集合中目标列分组的总量，其中，所述目标列分组中包含有所述特定时序特征计算的列集合中的列；将所述总量确定为所述特定时序特征计算在所述列分组集合下的列覆盖度。

A5.根据A3所述的方法，基于每种所述特定时序特征计算在不同列分组集合下的列覆盖度，从至少两个列分组集合中选取目标列分组集合，包括：

确定每种所述特定时序特征计算在同一列分组集合下的列覆盖度的总和；

基于不同列分组集合下的列覆盖度的总和，将最小的总和对应的列分组集合选取为所述目标列分组集合。

A6.根据A5所述的方法，确定每种所述特定时序特征计算在同一列分组集合下的列覆盖度的总和，包括：

将每种所述特定时序特征计算在同一列分组集合下的列覆盖度分别与每种所述特定时序特征计算的预设权重进行乘积；

将各乘积的加和确定为所述总和。

A7.根据A1所述的方法，将所述行数据段涉及的列划分为至少两个列分组，包括：

通过预设接口读取列分组策略，其中，所述列分组策略用于限定如何进行列分组；

基于所述列分组策略，将所述行数据段涉及的列划分为至少两个列分组。

B1.一种时序特征数据表的存储装置，包括：

B2.根据B1所述的装置，所述拆分单元，用于基于所述时序特征数据表包括的时间列的值和主键列的值，将所述时序特征数据表拆分为多个行数据段，其中，同一所述行数据段的各行数据的主键列的值相同，且各行数据的时间列的值包括在特定时间区间内；不同行数据段的各行数据的主键列的值不同或所涉及的特定时间区间不同。

B3.根据B1所述的装置，所述存储单元包括：

第一选取模块，用于选取至少两种特定时序特征计算，并确定每种所述特定时序特征计算在所述时序特征数据表中所依赖的列集合；

定义模块，用于定义至少两个列分组集合，其中，各所述列分组集合中分别包括至少两个列分组；

确定模块，用于基于所述至少两个列分组集合以及每种所述特定时序特征计算的列集合，确定每种所述特定时序特征计算在不同列分组集合下的列覆盖度；

第二选取模块，用于选取基于每种所述特定时序特征计算在不同列分组集合下的列覆盖度，从至少两个列分组集合中选取目标列分组集合；

第一划分模块，用于将所述行数据段涉及的列划分为所述目标列分组集合包括的至少两个列分组。

B4.根据B3所述的装置，所述确定模块，用于在同一列分组集合下，针对每一种所述特定时序特征计算分别执行：确定所述列分组集合中目标列分组的总量，其中，所述目标列分组中包含有所述特定时序特征计算的列集合中的列；将所述总量确定为所述特定时序特征计算在所述列分组集合下的列覆盖度。

B5.根据B3所述的装置，所述第二选取模块包括：

确定子模块，用于确定每种所述特定时序特征计算在同一列分组集合下的列覆盖度的总和；

选取子模块，用于基于不同列分组集合下的列覆盖度的总和，将最小的总和对应的列分组集合选取为所述目标列分组集合。

B6.根据B5所述的装置，所述确定子模块，用于将每种所述特定时序特征计算在同一列分组集合下的列覆盖度分别与每种所述特定时序特征计算的预设权重进行乘积；将各乘积的加和确定为所述总和。

B7.根据B1所述的装置，所述存储单元包括：包括：

读取模块，用于通过预设接口读取列分组策略，其中，所述列分组策略用于限定如何进行列分组；

第二划分模块，用于基于所述列分组策略，将所述行数据段涉及的列划分为至少两个列分组。

C1.一种计算机可读存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行A1至A7中任意一项所述的时序特征数据表的存储方法。

D1.一种存储管理设备，所述存储管理设备包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于运行所述程序以执行A1至A7中任意一项所述的时序特征数据表的存储方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的深度神经网络模型的运行方法、装置及框架中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种时序特征数据表的存储方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将时序特征数据表所包括的行数据拆分为多个行数据段，包括：

3.根据权利要求1所述的方法，其特征在于，将所述行数据段涉及的列划分为至少两个列分组，包括：

4.根据权利要求3所述的方法，其特征在于，基于所述至少两个列分组集合以及每种所述特定时序特征计算的列集合，确定每种所述特定时序特征计算在不同列分组集合下的列覆盖度，包括：

5.根据权利要求3所述的方法，其特征在于，基于每种所述特定时序特征计算在不同列分组集合下的列覆盖度，从至少两个列分组集合中选取目标列分组集合，包括：

6.根据权利要求5所述的方法，其特征在于，确定每种所述特定时序特征计算在同一列分组集合下的列覆盖度的总和，包括：

将各乘积的加和确定为所述总和。

7.根据权利要求1所述的方法，其特征在于，将所述行数据段涉及的列划分为至少两个列分组，包括：

8.一种时序特征数据表的存储装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求7中任意一项所述的时序特征数据表的存储方法。

10.一种存储管理设备，其特征在于，所述存储管理设备包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于运行所述程序以执行权利要求1至权利要求7中任意一项所述的时序特征数据表的存储方法。