CN117076523B

CN117076523B - 一种用于本地的数据时序存储方法

Info

Publication number: CN117076523B
Application number: CN202311324718.1A
Authority: CN
Inventors: 刘瑞轩; 毕征宇; 魏欣荣; 李博昊; 李松林
Original assignee: Huaneng Capital Services Co ltd
Current assignee: Huaneng Capital Services Co ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-02-09
Anticipated expiration: 2043-10-13
Also published as: CN117076523A

Abstract

本发明提供了一种用于本地的数据时序存储方法，涉及数据储存技术领域，包括：获取并对所述本地的待存储数据时序特征提取得到目标时序特征；基于用户访问历史行为模式与数据特征，引入逻辑回归构建得到分类预测模型；利用所述分类预测模型，结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果；采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热分区内。通过对待存储数据时序特征提取、考虑与访问行为特征的关联性，并结合逻辑回归构建的分类预测模型对待存储数据进行冷热分类与冷热分区存储，实现了合理地分配负载，降低数据存储开销，以及保证满足对时序大数据的访问需求。

Description

一种用于本地的数据时序存储方法

技术领域

本发明涉及数据存储技术领域，特别涉及一种用于本地的数据时序存储方法。

背景技术

随着通信与互联网领域的技术迅速发展，智能终端产生的数据量不断增多，数据类型也不断增多，这使得数据时序存储方面面临巨大考验的同时也无法较好满足用户对时序数据的访问需求。

因此，本发明提供一种用于本地的数据时序存储方法，降低数据存储开销，以及保证满足对时序大数据的访问需求。

发明内容

本发明提供一种用于本地的数据时序存储方法，用以通过对待存储数据时序特征提取、考虑与访问行为特征的关联性，并结合逻辑回归构建的分类预测模型对待存储数据进行冷热分类与冷热分区存储，实现了合理地分配负载，降低数据存储开销，以及保证满足对时序大数据的访问需求。

本发明提供一种用于本地的数据时序存储方法，包括：

步骤1：获取并对所述本地的待存储数据基于时序特征提取模型做时序特征提取，得到目标时序特征；

步骤2：基于用户访问历史行为模式与数据特征，引入逻辑回归构建得到分类预测模型；

步骤3：利用所述分类预测模型，结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果；

步骤4：采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热分区内。

优选的，获取并对所述本地的待存储数据基于时序特征提取模型做时序特征提取，得到目标时序特征，包括：

获取所述本地的需存储数据；

对需存储数据进行删除重复数据值、异常值处理以及缺失值补全处理后得到待存储数据；

利用基于时间编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取，得到待存储数据的目标时序特征。

优选的，利用基于时间编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取，得到待存储数据的目标时序特征，包括：

从多源数据库中提取预设量的多源数据作为数据样本；

将每个数据样本的对应数据源输入同一时间编码器，提取每个数据源的第一时序特征向量；

将第一时序特征向量输入同一个映射头进行降维得到第二时序特征向量，并获取关键比较损失；

利用所述关键比较损失对时序编码器的参数以及所述映射头的参数进行训练得到时序特征提取模型；

利用所述时序特征模型对所述待存储数据进行特征提取，得到所述待存储数据的目标时序特征。

优选的，基于用户访问历史行为模式与数据特征，引入逻辑回归构建得到分类预测模型，包括：

从历史访问行为数据库中提取得到预设量的用户访问历史行为，以及对应用户历史访问数据的第一数据特征以及对应时序特征；

将所述第一数据特征与对应时序特征作为输入值输入训练好的逻辑回归模型，并计算出对应数据在每分钟的被访问次数来对该模型进行训练，得到分类预测模型；

其中，分类预测函数公式如下：

式中，/>表示为分类预测值，取值范围为/>；t表示为线性回归系数；/>表示为输入值；/>表示为决策边界，其中/>。

优选的，利用所述分类预测模型，结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果，包括：

确定用户群获取服务器节点许可后，以数据流的形式将写入的待存储数据的数据特征以及对应目标时序特征输入所述分类预测模型进行冷热分类预测，得到分类预测值；

其中，对应的数据分类识别结果用公式表示如下：

式中，/>表示为数据识别标签结果；/>表示为预设分类阈值；

将数据识别标签为0的待存储数据分类为冷数据，并作为第一分类结果输出；

否则，将对应待存储数据分类为热数据，并作为第一分类结果输出。

优选的，确定用户群获取服务器节点许可，包括：

基于Hbase用户群与本地元数据缓存交互，获取meta表所在服务器节点信息，若元数据缓存未命中则利用Zookeeper组件获取所在meta表服务器信息；

根据meta表的具体位置，定位该表所在服务器节点，并与此节点进行通信获取meta表，再将新的mate元数据对应信息写入元数据缓存；

再根据meta表访问要写入的待存储数据表table所在的服务器，并建立连接以获取服务器节点许可。

优选的，采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热数据分区内，包括：

根据所述第一分类结果，利用索引主数据同Region化策略将数据冷热性按照预设字段规则耦合至对应数据的RowKey；

将耦合为冷数据的待存储数据以数据流的形式发送给服务器集群，来将对应待存储数据分散存入用户访问行为到来前，在集群预先分区构建的冷数据区内；

将耦合为热数据的待存储数据以数据流的形式发送给服务器集群，来将对应待存储数据分散存入在集群预先分区构建的热数据区内。

优选的，预设字段规则指的是RowKey的0号字节为集群中服务器的节点数，1号字节最低位区分索引与主数据，次低位区分数据冷热类别，2-9号字节为RegionID，剩余字节为根据主数据各特征进行哈希变换的字段。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种用于本地的数据时序存储方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供一种用于本地的数据时序存储方法，如图1所示，包括：

该实施例中，待存储数据指的是对存放在智能设备，即本地磁盘的数据，包括有字符型数据，比如文本数据，数值型数据，时间型数据、布尔数据以及小数数据预处理后数据；时序特征提取模型是基于时序编码器训练得到的用于对数据进行时序特征提取的模型；目标时序特征指的是利用时序特征提取模型对待存储数据特征提取得到时序特征，包括有趋势特征、周期特征以及综合特征。

该实施例中，用户访问历史行为模式指的是用户访问历史行为的重复性作业；数据特征指的是用户访问数据的特征，包括有容量、种类、复杂性、以及关联性等；逻辑回归常用于二分类，是机器学习与模式识别的最重要分类模型之一；分类预测模型是考虑与访问行为特征的关联性，基于逻辑回归训练得到模型，用于对待分类模型进行冷热分类预测，其中冷热分类预测指的是基于用户对待存储数据的访问频率的预测。

该实施例中，第一分类结果指的是待存储数据冷热性分类的预测结果；索引优化策略指的是基于用户历史访问行为统计汇总用户最常访问的数据特征并构建索引，有利于环节负载倾斜，以及提升数据利用效率；冷热分区指的是冷数据区与热数据区，用于分别存储冷数据与热数据。

上述技术方案的有益效果是：通过对待存储数据时序特征提取、考虑与访问行为特征的关联性，并结合逻辑回归构建的分类预测模型对待存储数据进行冷热分类与冷热分区存储，实现了合理地分配负载，降低数据存储开销，以及保证满足对时序大数据的访问需求。

本发明实施例提供一种用于本地的数据时序存储方法，获取并对所述本地的待存储数据基于时序特征提取模型做时序特征提取，得到目标时序特征，包括：

获取所述本地的需存储数据；

该实施例中，需存储数据指的是本地需要存储的数据；待存储数据是对需存储数据删除重复数据值、异常值处理以及缺失值补全处理得到的数据，其处理意义是为了对数据进行重新审查和校验，有利于后续数据分析准确；时间编码器基于卷积神经网络构建，对所有数据源共享一套学习参数，有助于减少模型的参数量，降低过拟合风险；目标时序特征指的是利用时序特征提取模型对待存储数据特征提取得到时序特征，包括有趋势特征、周期特征以及综合特征。

上述技术方案的有益效果是：通过对本地数据预处理后再利用基于时间编码器训练得到的时序特征提取模型得到目标时序特征，有利于后续冷热数据分类预测。

本发明实施例提供一种用于本地的数据时序存储方法，利用基于时序编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取，得到待存储数据的目标时序特征，包括：

从多源数据库中提取预设量的多源数据作为数据样本；

该实施例中，多源数据库是由数据来源众多的数据构成的数据库；预设量是提前设定好的；数据样本指的是用于构建模型的数据；时间编码器基于卷积神经网络构建，对所有数据源共享一套学习参数，有助于减少模型的参数量，降低过拟合风险。

该实施例中，第一时序特征向量指的是将数据样本的对应数据源输入时间编码器得到的特征向量；第二时序特征向量是将第一时序特征向量输入映射头进行降维得到的特征向量，其中映射头由多个全连接层组成，每个全连接层的输入维度大于等于输出维度。

该实施例中，关键比较损失用于对时序编码器的参数以及所述映射头的参数进行迭代训练；时序特征提取模型是利用所述关键比较损失对时序编码器的参数以及所述映射头的参数进行训练得到用于对待存储数据提取时序特征的模型；目标时序特征指的是利用时序特征提取模型对待存储数据特征提取得到时序特征，包括有趋势特征、周期特征以及综合特征。

上述技术方案的有益效果是：再利用基于时间编码器训练得到的时序特征提取模型对预处理后的本地数据特征提取得到目标时序特征，有利于后续冷热数据精准分类预测。

本发明实施例提供一种用于本地的数据时序存储方法，基于用户访问历史行为模式与数据特征，引入逻辑回归构建得到分类预测模型，包括：

其中，分类预测函数公式如下：

该实施例中，用户访问历史行为模式指的是用户访问历史行为的重复性行为；历史访问行为数据库主要由用户访问历史行为、用户历史访问请求以及历史访问数据的特征组成；预设量是提前设定好的；第一数据特征指的是用户访问数据的特征，包括有容量、种类、复杂性、以及关联性等；时序特征有趋势特征、周期特征以及综合特征。

该实施例中，逻辑回归常用于二分类，逻辑回归模型是机器学习与模式识别的最重要分类模型之一；分类预测模型是考虑与访问行为特征的关联性，基于逻辑回归训练得到模型，用于对待分类模型进行冷热分类预测，其中冷热分类预测指的是基于用户对待存储数据的访问频率的预测。

上述技术方案的有益效果是：通过考虑数据与访问行为特征的关联性，再结合逻辑回归模型进行训练得到分类预测模型，为对待存储数据的冷热分类奠定基础。

本发明实施例提供一种用于本地的数据时序存储方法，利用所述分类预测模型，结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果，包括：

其中，对应的数据分类识别结果用公式表示如下：

式中，表示为数据识别标签结果；/>表示为预设分类阈值；

该实施例中，用户群指的是需存储数据的同目的用户；服务器节点是一种服务器装置；待存储数据指的是对存放在智能设备，即本地磁盘的数据，包括有字符型数据，比如文本数据，数值型数据，时间型数据、布尔数据以及小数数据预处理后数据；数据特征指的是待存储数据的特征，包括有容量、种类、复杂性、以及关联性等；目标时序特征有趋势特征、周期特征以及综合特征。

该实施例中，分类预测模型是考虑与访问行为特征的关联性，基于逻辑回归训练得到模型，用于对待分类模型进行冷热分类预测，其中冷热分类预测指的是基于用户对待存储数据的访问频率的预测；分类预测值用于评定数据分类识别结果；预设分类阈值是提前设定好的；第一分类结果指的是对待存储数据冷热性分类的预测结果。

上述技术方案的有益效果是：通过获取服务器节点认可后，将待存储数据的数据特征以及对应目标时序特征传入所述分类预测模型进行冷热分类预测，准确获取了待存储数据的冷热分类结果。

本发明实施例提供一种用于本地的数据时序存储方法，确定用户群获取服务器节点许可，包括：

该实施例中，Hbase是一个分布式、可伸缩的而大数据存储库；用户群指的是需存储数据的同目的用户；本地元数据缓存指的是缓存至混合云存储内存内的数据；meta表用于专门存储与分区Region相关的信息；服务器节点是一种服务器装置；Zookeeper组件的作用包括有维护管理相关元数据信息、保证数据写入、获取所在meta表服务器信息等等。

上述技术方案的有益效果是：通过基于Hbase的各类组件与写入的待存储数据表table所在的服务器建立连接以获取服务器节点许可，为后续待存储数据冷热分类预测奠定基础。

本发明实施例提供一种用于本地的数据时序存储方法，采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热数据分区内，包括：

该实施例中，第一分类结果指的是对待存储数据冷热性分类的预测结果；索引主数据同Region化策略是基于用户历史访问行为统计汇总用户最常访问的数据特征并构建索引，有利于环节负载倾斜，以及提升数据利用效率。

该实施例中，预设字段规则是RowKey的0号字节（0号字节即为首节点）为集群中服务器的节点数，1号字节最低位区分索引与主数据，次低位区分数据冷热类别，2-9号字节为RegionID，剩余字节为根据主数据各特征进行哈希变换的字段；RowKey有利于数据查询、Region划分等等；服务器集群是由若干服务器构成的；冷数据区用于存储分类结果为冷数据的待存储数据；热数据区用于存储分类结果为热数据的待存储数据。

该实施例中，将耦合为冷数据的待存储数据以数据流的形式发送给服务器集群，来将对应待存储数据分散存入用户访问行为到来前，在集群预先分区构建的冷数据区内的过程中，还包括：

对待发送数据按照需要发送的冷数据区进行划分，按照划分顺序得到发送块集合；

确定针对冷数据的要求发送周期，且结合每个发送块的数据量以及发送块集合中发送块数量，来向每个发送块配置发送时间帧，其中，所述发送时间帧的总和与要求发送周期一致；

将发送要求周期与待发送数据所处发送设备的时钟周期进行比较；

若所述要求发送周期小于时钟周期，基于周期差异确定要求发送周期中每个发送块的数据膨胀系数；

其中，表示对应发送块的发送时间帧；/>表示要求发送周期；/>表示时钟周期；/>表示对应发送块的数据膨胀系数；

若所述要求发送周期大于时钟周期，基于周期差异确定要求发送周期中每个发送块的数据压缩系数；

其中，P2表示对应发送块的数据压缩系数；

当所述要求发送周期等于时钟周期，保持待发送数据不变；

通过对发送块进行调节，且按照时钟周期且以数据流的形式进行发送。

其中，将耦合为冷数据的待存储数据视为待发送数据。

该实施例中，发送时间帧=数据量/每帧的发送频率。

该实施例中，数据膨胀系数的目的是为了在对应数据块中补充相应量的数据包，该数据包可以对该数据块中的数据进行包装，主要是为了符合时间标准。

该实施例中，数据压缩系数是为了将相应的数据进行要锁，也来满足传输要求。

上述技术方案的有益效果是：通过利用索引主数据同Region化策略，结合分类结果对待存储数据耦合冷热性，并分别存入在集群预先分区构建的冷热数据区内，完成数据存储，保证了分配负载的合理性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于本地的数据时序存储方法，其特征在于，包括：

步骤4：采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热分区内；

其中，获取并对所述本地的待存储数据基于时序特征提取模型做时序特征提取，得到目标时序特征，包括：

获取所述本地的需存储数据；

利用基于时间编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取，得到待存储数据的目标时序特征；

其中，利用基于时间编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取，得到待存储数据的目标时序特征，包括：

从多源数据库中提取预设量的多源数据作为数据样本；

利用所述时序特征模型对所述待存储数据进行特征提取，得到所述待存储数据的目标时序特征；

其中，基于用户访问历史行为模式与数据特征，引入逻辑回归构建得到分类预测模型，包括：

其中，分类预测函数公式如下：

2.根据权利要求1所述的一种用于本地的数据时序存储方法，其特征在于，利用所述分类预测模型，结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果，包括：

其中，对应的数据分类识别结果用公式表示如下：

式中，/>表示为数据识别标签结果；/>表示为预设分类阈值；

3.根据权利要求2所述的一种用于本地的数据时序存储方法，其特征在于，确定用户群获取服务器节点许可，包括：

4.根据权利要求1所述的一种用于本地的数据时序存储方法，其特征在于，采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热数据分区内，包括：

5.根据权利要求4所述的一种用于本地的数据时序存储方法，其特征在于，预设字段规则指的是RowKey的0号字节为集群中服务器的节点数，1号字节最低位区分索引与主数据，次低位区分数据冷热类别，2-9号字节为RegionID，剩余字节为根据主数据各特征进行哈希变换的字段。