CN117076523B - 一种用于本地的数据时序存储方法 - Google Patents

一种用于本地的数据时序存储方法 Download PDF

Info

Publication number
CN117076523B
CN117076523B CN202311324718.1A CN202311324718A CN117076523B CN 117076523 B CN117076523 B CN 117076523B CN 202311324718 A CN202311324718 A CN 202311324718A CN 117076523 B CN117076523 B CN 117076523B
Authority
CN
China
Prior art keywords
data
stored
time sequence
classification
cold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311324718.1A
Other languages
English (en)
Other versions
CN117076523A (zh
Inventor
刘瑞轩
毕征宇
魏欣荣
李博昊
李松林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaneng Capital Services Co ltd
Original Assignee
Huaneng Capital Services Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaneng Capital Services Co ltd filed Critical Huaneng Capital Services Co ltd
Priority to CN202311324718.1A priority Critical patent/CN117076523B/zh
Publication of CN117076523A publication Critical patent/CN117076523A/zh
Application granted granted Critical
Publication of CN117076523B publication Critical patent/CN117076523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于本地的数据时序存储方法,涉及数据储存技术领域,包括:获取并对所述本地的待存储数据时序特征提取得到目标时序特征;基于用户访问历史行为模式与数据特征,引入逻辑回归构建得到分类预测模型;利用所述分类预测模型,结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果;采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热分区内。通过对待存储数据时序特征提取、考虑与访问行为特征的关联性,并结合逻辑回归构建的分类预测模型对待存储数据进行冷热分类与冷热分区存储,实现了合理地分配负载,降低数据存储开销,以及保证满足对时序大数据的访问需求。

Description

一种用于本地的数据时序存储方法
技术领域
本发明涉及数据存储技术领域,特别涉及一种用于本地的数据时序存储方法。
背景技术
随着通信与互联网领域的技术迅速发展,智能终端产生的数据量不断增多,数据类型也不断增多,这使得数据时序存储方面面临巨大考验的同时也无法较好满足用户对时序数据的访问需求。
因此,本发明提供一种用于本地的数据时序存储方法,降低数据存储开销,以及保证满足对时序大数据的访问需求。
发明内容
本发明提供一种用于本地的数据时序存储方法,用以通过对待存储数据时序特征提取、考虑与访问行为特征的关联性,并结合逻辑回归构建的分类预测模型对待存储数据进行冷热分类与冷热分区存储,实现了合理地分配负载,降低数据存储开销,以及保证满足对时序大数据的访问需求。
本发明提供一种用于本地的数据时序存储方法,包括:
步骤1:获取并对所述本地的待存储数据基于时序特征提取模型做时序特征提取,得到目标时序特征;
步骤2:基于用户访问历史行为模式与数据特征,引入逻辑回归构建得到分类预测模型;
步骤3:利用所述分类预测模型,结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果;
步骤4:采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热分区内。
优选的,获取并对所述本地的待存储数据基于时序特征提取模型做时序特征提取,得到目标时序特征,包括:
获取所述本地的需存储数据;
对需存储数据进行删除重复数据值、异常值处理以及缺失值补全处理后得到待存储数据;
利用基于时间编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取,得到待存储数据的目标时序特征。
优选的,利用基于时间编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取,得到待存储数据的目标时序特征,包括:
从多源数据库中提取预设量的多源数据作为数据样本;
将每个数据样本的对应数据源输入同一时间编码器,提取每个数据源的第一时序特征向量;
将第一时序特征向量输入同一个映射头进行降维得到第二时序特征向量,并获取关键比较损失;
利用所述关键比较损失对时序编码器的参数以及所述映射头的参数进行训练得到时序特征提取模型;
利用所述时序特征模型对所述待存储数据进行特征提取,得到所述待存储数据的目标时序特征。
优选的,基于用户访问历史行为模式与数据特征,引入逻辑回归构建得到分类预测模型,包括:
从历史访问行为数据库中提取得到预设量的用户访问历史行为,以及对应用户历史访问数据的第一数据特征以及对应时序特征;
将所述第一数据特征与对应时序特征作为输入值输入训练好的逻辑回归模型,并计算出对应数据在每分钟的被访问次数来对该模型进行训练,得到分类预测模型;
其中,分类预测函数公式如下:
式中,/>表示为分类预测值,取值范围为/>;t表示为线性回归系数;/>表示为输入值;/>表示为决策边界,其中/>
优选的,利用所述分类预测模型,结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果,包括:
确定用户群获取服务器节点许可后,以数据流的形式将写入的待存储数据的数据特征以及对应目标时序特征输入所述分类预测模型进行冷热分类预测,得到分类预测值;
其中,对应的数据分类识别结果用公式表示如下:
式中,/>表示为数据识别标签结果;/>表示为预设分类阈值;
将数据识别标签为0的待存储数据分类为冷数据,并作为第一分类结果输出;
否则,将对应待存储数据分类为热数据,并作为第一分类结果输出。
优选的,确定用户群获取服务器节点许可,包括:
基于Hbase用户群与本地元数据缓存交互,获取meta表所在服务器节点信息,若元数据缓存未命中则利用Zookeeper组件获取所在meta表服务器信息;
根据meta表的具体位置,定位该表所在服务器节点,并与此节点进行通信获取meta表,再将新的mate元数据对应信息写入元数据缓存;
再根据meta表访问要写入的待存储数据表table所在的服务器,并建立连接以获取服务器节点许可。
优选的,采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热数据分区内,包括:
根据所述第一分类结果,利用索引主数据同Region化策略将数据冷热性按照预设字段规则耦合至对应数据的RowKey;
将耦合为冷数据的待存储数据以数据流的形式发送给服务器集群,来将对应待存储数据分散存入用户访问行为到来前,在集群预先分区构建的冷数据区内;
将耦合为热数据的待存储数据以数据流的形式发送给服务器集群,来将对应待存储数据分散存入在集群预先分区构建的热数据区内。
优选的,预设字段规则指的是RowKey的0号字节为集群中服务器的节点数,1号字节最低位区分索引与主数据,次低位区分数据冷热类别,2-9号字节为RegionID,剩余字节为根据主数据各特征进行哈希变换的字段。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于本地的数据时序存储方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种用于本地的数据时序存储方法,如图1所示,包括:
步骤1:获取并对所述本地的待存储数据基于时序特征提取模型做时序特征提取,得到目标时序特征;
步骤2:基于用户访问历史行为模式与数据特征,引入逻辑回归构建得到分类预测模型;
步骤3:利用所述分类预测模型,结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果;
步骤4:采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热分区内。
该实施例中,待存储数据指的是对存放在智能设备,即本地磁盘的数据,包括有字符型数据,比如文本数据,数值型数据,时间型数据、布尔数据以及小数数据预处理后数据;时序特征提取模型是基于时序编码器训练得到的用于对数据进行时序特征提取的模型;目标时序特征指的是利用时序特征提取模型对待存储数据特征提取得到时序特征,包括有趋势特征、周期特征以及综合特征。
该实施例中,用户访问历史行为模式指的是用户访问历史行为的重复性作业;数据特征指的是用户访问数据的特征,包括有容量、种类、复杂性、以及关联性等;逻辑回归常用于二分类,是机器学习与模式识别的最重要分类模型之一;分类预测模型是考虑与访问行为特征的关联性,基于逻辑回归训练得到模型,用于对待分类模型进行冷热分类预测,其中冷热分类预测指的是基于用户对待存储数据的访问频率的预测。
该实施例中,第一分类结果指的是待存储数据冷热性分类的预测结果;索引优化策略指的是基于用户历史访问行为统计汇总用户最常访问的数据特征并构建索引,有利于环节负载倾斜,以及提升数据利用效率;冷热分区指的是冷数据区与热数据区,用于分别存储冷数据与热数据。
上述技术方案的有益效果是:通过对待存储数据时序特征提取、考虑与访问行为特征的关联性,并结合逻辑回归构建的分类预测模型对待存储数据进行冷热分类与冷热分区存储,实现了合理地分配负载,降低数据存储开销,以及保证满足对时序大数据的访问需求。
本发明实施例提供一种用于本地的数据时序存储方法,获取并对所述本地的待存储数据基于时序特征提取模型做时序特征提取,得到目标时序特征,包括:
获取所述本地的需存储数据;
对需存储数据进行删除重复数据值、异常值处理以及缺失值补全处理后得到待存储数据;
利用基于时间编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取,得到待存储数据的目标时序特征。
该实施例中,需存储数据指的是本地需要存储的数据;待存储数据是对需存储数据删除重复数据值、异常值处理以及缺失值补全处理得到的数据,其处理意义是为了对数据进行重新审查和校验,有利于后续数据分析准确;时间编码器基于卷积神经网络构建,对所有数据源共享一套学习参数,有助于减少模型的参数量,降低过拟合风险;目标时序特征指的是利用时序特征提取模型对待存储数据特征提取得到时序特征,包括有趋势特征、周期特征以及综合特征。
上述技术方案的有益效果是:通过对本地数据预处理后再利用基于时间编码器训练得到的时序特征提取模型得到目标时序特征,有利于后续冷热数据分类预测。
本发明实施例提供一种用于本地的数据时序存储方法,利用基于时序编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取,得到待存储数据的目标时序特征,包括:
从多源数据库中提取预设量的多源数据作为数据样本;
将每个数据样本的对应数据源输入同一时间编码器,提取每个数据源的第一时序特征向量;
将第一时序特征向量输入同一个映射头进行降维得到第二时序特征向量,并获取关键比较损失;
利用所述关键比较损失对时序编码器的参数以及所述映射头的参数进行训练得到时序特征提取模型;
利用所述时序特征模型对所述待存储数据进行特征提取,得到所述待存储数据的目标时序特征。
该实施例中,多源数据库是由数据来源众多的数据构成的数据库;预设量是提前设定好的;数据样本指的是用于构建模型的数据;时间编码器基于卷积神经网络构建,对所有数据源共享一套学习参数,有助于减少模型的参数量,降低过拟合风险。
该实施例中,第一时序特征向量指的是将数据样本的对应数据源输入时间编码器得到的特征向量;第二时序特征向量是将第一时序特征向量输入映射头进行降维得到的特征向量,其中映射头由多个全连接层组成,每个全连接层的输入维度大于等于输出维度。
该实施例中,关键比较损失用于对时序编码器的参数以及所述映射头的参数进行迭代训练;时序特征提取模型是利用所述关键比较损失对时序编码器的参数以及所述映射头的参数进行训练得到用于对待存储数据提取时序特征的模型;目标时序特征指的是利用时序特征提取模型对待存储数据特征提取得到时序特征,包括有趋势特征、周期特征以及综合特征。
上述技术方案的有益效果是:再利用基于时间编码器训练得到的时序特征提取模型对预处理后的本地数据特征提取得到目标时序特征,有利于后续冷热数据精准分类预测。
本发明实施例提供一种用于本地的数据时序存储方法,基于用户访问历史行为模式与数据特征,引入逻辑回归构建得到分类预测模型,包括:
从历史访问行为数据库中提取得到预设量的用户访问历史行为,以及对应用户历史访问数据的第一数据特征以及对应时序特征;
将所述第一数据特征与对应时序特征作为输入值输入训练好的逻辑回归模型,并计算出对应数据在每分钟的被访问次数来对该模型进行训练,得到分类预测模型;
其中,分类预测函数公式如下:
式中,/>表示为分类预测值,取值范围为/>;t表示为线性回归系数;/>表示为输入值;/>表示为决策边界,其中/>
该实施例中,用户访问历史行为模式指的是用户访问历史行为的重复性行为;历史访问行为数据库主要由用户访问历史行为、用户历史访问请求以及历史访问数据的特征组成;预设量是提前设定好的;第一数据特征指的是用户访问数据的特征,包括有容量、种类、复杂性、以及关联性等;时序特征有趋势特征、周期特征以及综合特征。
该实施例中,逻辑回归常用于二分类,逻辑回归模型是机器学习与模式识别的最重要分类模型之一;分类预测模型是考虑与访问行为特征的关联性,基于逻辑回归训练得到模型,用于对待分类模型进行冷热分类预测,其中冷热分类预测指的是基于用户对待存储数据的访问频率的预测。
上述技术方案的有益效果是:通过考虑数据与访问行为特征的关联性,再结合逻辑回归模型进行训练得到分类预测模型,为对待存储数据的冷热分类奠定基础。
本发明实施例提供一种用于本地的数据时序存储方法,利用所述分类预测模型,结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果,包括:
确定用户群获取服务器节点许可后,以数据流的形式将写入的待存储数据的数据特征以及对应目标时序特征输入所述分类预测模型进行冷热分类预测,得到分类预测值;
其中,对应的数据分类识别结果用公式表示如下:
式中,表示为数据识别标签结果;/>表示为预设分类阈值;
将数据识别标签为0的待存储数据分类为冷数据,并作为第一分类结果输出;
否则,将对应待存储数据分类为热数据,并作为第一分类结果输出。
该实施例中,用户群指的是需存储数据的同目的用户;服务器节点是一种服务器装置;待存储数据指的是对存放在智能设备,即本地磁盘的数据,包括有字符型数据,比如文本数据,数值型数据,时间型数据、布尔数据以及小数数据预处理后数据;数据特征指的是待存储数据的特征,包括有容量、种类、复杂性、以及关联性等;目标时序特征有趋势特征、周期特征以及综合特征。
该实施例中,分类预测模型是考虑与访问行为特征的关联性,基于逻辑回归训练得到模型,用于对待分类模型进行冷热分类预测,其中冷热分类预测指的是基于用户对待存储数据的访问频率的预测;分类预测值用于评定数据分类识别结果;预设分类阈值是提前设定好的;第一分类结果指的是对待存储数据冷热性分类的预测结果。
上述技术方案的有益效果是:通过获取服务器节点认可后,将待存储数据的数据特征以及对应目标时序特征传入所述分类预测模型进行冷热分类预测,准确获取了待存储数据的冷热分类结果。
本发明实施例提供一种用于本地的数据时序存储方法,确定用户群获取服务器节点许可,包括:
基于Hbase用户群与本地元数据缓存交互,获取meta表所在服务器节点信息,若元数据缓存未命中则利用Zookeeper组件获取所在meta表服务器信息;
根据meta表的具体位置,定位该表所在服务器节点,并与此节点进行通信获取meta表,再将新的mate元数据对应信息写入元数据缓存;
再根据meta表访问要写入的待存储数据表table所在的服务器,并建立连接以获取服务器节点许可。
该实施例中,Hbase是一个分布式、可伸缩的而大数据存储库;用户群指的是需存储数据的同目的用户;本地元数据缓存指的是缓存至混合云存储内存内的数据;meta表用于专门存储与分区Region相关的信息;服务器节点是一种服务器装置;Zookeeper组件的作用包括有维护管理相关元数据信息、保证数据写入、获取所在meta表服务器信息等等。
上述技术方案的有益效果是:通过基于Hbase的各类组件与写入的待存储数据表table所在的服务器建立连接以获取服务器节点许可,为后续待存储数据冷热分类预测奠定基础。
本发明实施例提供一种用于本地的数据时序存储方法,采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热数据分区内,包括:
根据所述第一分类结果,利用索引主数据同Region化策略将数据冷热性按照预设字段规则耦合至对应数据的RowKey;
将耦合为冷数据的待存储数据以数据流的形式发送给服务器集群,来将对应待存储数据分散存入用户访问行为到来前,在集群预先分区构建的冷数据区内;
将耦合为热数据的待存储数据以数据流的形式发送给服务器集群,来将对应待存储数据分散存入在集群预先分区构建的热数据区内。
该实施例中,第一分类结果指的是对待存储数据冷热性分类的预测结果;索引主数据同Region化策略是基于用户历史访问行为统计汇总用户最常访问的数据特征并构建索引,有利于环节负载倾斜,以及提升数据利用效率。
该实施例中,预设字段规则是RowKey的0号字节(0号字节即为首节点)为集群中服务器的节点数,1号字节最低位区分索引与主数据,次低位区分数据冷热类别,2-9号字节为RegionID,剩余字节为根据主数据各特征进行哈希变换的字段;RowKey有利于数据查询、Region划分等等;服务器集群是由若干服务器构成的;冷数据区用于存储分类结果为冷数据的待存储数据;热数据区用于存储分类结果为热数据的待存储数据。
该实施例中,将耦合为冷数据的待存储数据以数据流的形式发送给服务器集群,来将对应待存储数据分散存入用户访问行为到来前,在集群预先分区构建的冷数据区内的过程中,还包括:
对待发送数据按照需要发送的冷数据区进行划分,按照划分顺序得到发送块集合;
确定针对冷数据的要求发送周期,且结合每个发送块的数据量以及发送块集合中发送块数量,来向每个发送块配置发送时间帧,其中,所述发送时间帧的总和与要求发送周期一致;
将发送要求周期与待发送数据所处发送设备的时钟周期进行比较;
若所述要求发送周期小于时钟周期,基于周期差异确定要求发送周期中每个发送块的数据膨胀系数;
其中,表示对应发送块的发送时间帧;/>表示要求发送周期;/>表示时钟周期;/>表示对应发送块的数据膨胀系数;
若所述要求发送周期大于时钟周期,基于周期差异确定要求发送周期中每个发送块的数据压缩系数;
其中,P2表示对应发送块的数据压缩系数;
当所述要求发送周期等于时钟周期,保持待发送数据不变;
通过对发送块进行调节,且按照时钟周期且以数据流的形式进行发送。
其中,将耦合为冷数据的待存储数据视为待发送数据。
该实施例中,发送时间帧=数据量/每帧的发送频率。
该实施例中,数据膨胀系数的目的是为了在对应数据块中补充相应量的数据包,该数据包可以对该数据块中的数据进行包装,主要是为了符合时间标准。
该实施例中,数据压缩系数是为了将相应的数据进行要锁,也来满足传输要求。
上述技术方案的有益效果是:通过利用索引主数据同Region化策略,结合分类结果对待存储数据耦合冷热性,并分别存入在集群预先分区构建的冷热数据区内,完成数据存储,保证了分配负载的合理性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种用于本地的数据时序存储方法,其特征在于,包括:
步骤1:获取并对所述本地的待存储数据基于时序特征提取模型做时序特征提取,得到目标时序特征;
步骤2:基于用户访问历史行为模式与数据特征,引入逻辑回归构建得到分类预测模型;
步骤3:利用所述分类预测模型,结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果;
步骤4:采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热分区内;
其中,获取并对所述本地的待存储数据基于时序特征提取模型做时序特征提取,得到目标时序特征,包括:
获取所述本地的需存储数据;
对需存储数据进行删除重复数据值、异常值处理以及缺失值补全处理后得到待存储数据;
利用基于时间编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取,得到待存储数据的目标时序特征;
其中,利用基于时间编码器训练得到的时序特征提取模型对所述待存储数据进行特征提取,得到待存储数据的目标时序特征,包括:
从多源数据库中提取预设量的多源数据作为数据样本;
将每个数据样本的对应数据源输入同一时间编码器,提取每个数据源的第一时序特征向量;
将第一时序特征向量输入同一个映射头进行降维得到第二时序特征向量,并获取关键比较损失;
利用所述关键比较损失对时序编码器的参数以及所述映射头的参数进行训练得到时序特征提取模型;
利用所述时序特征模型对所述待存储数据进行特征提取,得到所述待存储数据的目标时序特征;
其中,基于用户访问历史行为模式与数据特征,引入逻辑回归构建得到分类预测模型,包括:
从历史访问行为数据库中提取得到预设量的用户访问历史行为,以及对应用户历史访问数据的第一数据特征以及对应时序特征;
将所述第一数据特征与对应时序特征作为输入值输入训练好的逻辑回归模型,并计算出对应数据在每分钟的被访问次数来对该模型进行训练,得到分类预测模型;
其中,分类预测函数公式如下:
式中,/>表示为分类预测值,取值范围为/>;t表示为线性回归系数;/>表示为输入值;/>表示为决策边界,其中/>
2.根据权利要求1所述的一种用于本地的数据时序存储方法,其特征在于,利用所述分类预测模型,结合目标时序特征对待存储数据进行冷热分类预测后得到第一分类结果,包括:
确定用户群获取服务器节点许可后,以数据流的形式将写入的待存储数据的数据特征以及对应目标时序特征输入所述分类预测模型进行冷热分类预测,得到分类预测值;
其中,对应的数据分类识别结果用公式表示如下:
式中,/>表示为数据识别标签结果;/>表示为预设分类阈值;
将数据识别标签为0的待存储数据分类为冷数据,并作为第一分类结果输出;
否则,将对应待存储数据分类为热数据,并作为第一分类结果输出。
3.根据权利要求2所述的一种用于本地的数据时序存储方法,其特征在于,确定用户群获取服务器节点许可,包括:
基于Hbase用户群与本地元数据缓存交互,获取meta表所在服务器节点信息,若元数据缓存未命中则利用Zookeeper组件获取所在meta表服务器信息;
根据meta表的具体位置,定位该表所在服务器节点,并与此节点进行通信获取meta表,再将新的mate元数据对应信息写入元数据缓存;
再根据meta表访问要写入的待存储数据表table所在的服务器,并建立连接以获取服务器节点许可。
4.根据权利要求1所述的一种用于本地的数据时序存储方法,其特征在于,采用索引优化策略基于所述第一分类结果将待存储数据分散存入不同节点中对应的冷热数据分区内,包括:
根据所述第一分类结果,利用索引主数据同Region化策略将数据冷热性按照预设字段规则耦合至对应数据的RowKey;
将耦合为冷数据的待存储数据以数据流的形式发送给服务器集群,来将对应待存储数据分散存入用户访问行为到来前,在集群预先分区构建的冷数据区内;
将耦合为热数据的待存储数据以数据流的形式发送给服务器集群,来将对应待存储数据分散存入在集群预先分区构建的热数据区内。
5.根据权利要求4所述的一种用于本地的数据时序存储方法,其特征在于,预设字段规则指的是RowKey的0号字节为集群中服务器的节点数,1号字节最低位区分索引与主数据,次低位区分数据冷热类别,2-9号字节为RegionID,剩余字节为根据主数据各特征进行哈希变换的字段。
CN202311324718.1A 2023-10-13 2023-10-13 一种用于本地的数据时序存储方法 Active CN117076523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311324718.1A CN117076523B (zh) 2023-10-13 2023-10-13 一种用于本地的数据时序存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311324718.1A CN117076523B (zh) 2023-10-13 2023-10-13 一种用于本地的数据时序存储方法

Publications (2)

Publication Number Publication Date
CN117076523A CN117076523A (zh) 2023-11-17
CN117076523B true CN117076523B (zh) 2024-02-09

Family

ID=88717366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311324718.1A Active CN117076523B (zh) 2023-10-13 2023-10-13 一种用于本地的数据时序存储方法

Country Status (1)

Country Link
CN (1) CN117076523B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971905B (zh) * 2024-04-01 2024-06-11 华能曲阜热电有限公司 一种工业生产过程历史数据即时统计的缓存及索引方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723126A (zh) * 2020-05-11 2020-09-29 杭州电子科技大学 基于区块链的冷热时序数据分类处理方法及存储系统
WO2021189769A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 低负载信息预测方法、装置、计算机系统及可读存储介质
CN114169401A (zh) * 2021-11-15 2022-03-11 阿里巴巴(中国)有限公司 数据处理、预测模型训练方法和设备
CN114817425A (zh) * 2022-06-28 2022-07-29 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质
CN115470190A (zh) * 2022-07-29 2022-12-13 天翼云科技有限公司 一种多存储池数据分类存储方法、系统与电子设备
WO2023024955A1 (zh) * 2021-08-23 2023-03-02 阿里云计算有限公司 数据库任务处理方法、冷热数据处理方法、存储引擎、设备及存储介质
CN116204138A (zh) * 2023-05-05 2023-06-02 成都三合力通科技有限公司 一种基于分层存储的高效存储系统及方法
CN116776150A (zh) * 2023-06-20 2023-09-19 平安科技(深圳)有限公司 接口异常访问识别方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021189769A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 低负载信息预测方法、装置、计算机系统及可读存储介质
CN111723126A (zh) * 2020-05-11 2020-09-29 杭州电子科技大学 基于区块链的冷热时序数据分类处理方法及存储系统
WO2023024955A1 (zh) * 2021-08-23 2023-03-02 阿里云计算有限公司 数据库任务处理方法、冷热数据处理方法、存储引擎、设备及存储介质
CN114169401A (zh) * 2021-11-15 2022-03-11 阿里巴巴(中国)有限公司 数据处理、预测模型训练方法和设备
CN114817425A (zh) * 2022-06-28 2022-07-29 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质
CN115470190A (zh) * 2022-07-29 2022-12-13 天翼云科技有限公司 一种多存储池数据分类存储方法、系统与电子设备
CN116204138A (zh) * 2023-05-05 2023-06-02 成都三合力通科技有限公司 一种基于分层存储的高效存储系统及方法
CN116776150A (zh) * 2023-06-20 2023-09-19 平安科技(深圳)有限公司 接口异常访问识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于HBase/Spark的教学大数据存储及索引模型研究;唐立;李亚平;曲金帅;;云南民族大学学报(自然科学版)(05);全文 *

Also Published As

Publication number Publication date
CN117076523A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
Fu et al. Secure data storage and searching for industrial IoT by integrating fog computing and cloud computing
CN103488673B (zh) 用于执行调和处理的方法、控制器及数据存储系统
US9460308B2 (en) Multi-level privacy evaluation
CN108874971A (zh) 一种应用于海量标签化实体数据存储的工具和方法
CN117076523B (zh) 一种用于本地的数据时序存储方法
US8909669B2 (en) System and method for locating and retrieving private information on a network
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN108647266A (zh) 一种异构数据快速分布存储、交互方法
CN110855648A (zh) 一种网络攻击的预警控制方法及装置
WO2021000645A1 (zh) 基于数据爬取的合约生成方法、装置和计算机设备
CN112749296A (zh) 一种视频推荐方法、装置、服务器及存储介质
Shi et al. Human resources balanced allocation method based on deep learning algorithm
CN114679283A (zh) 区块链数据请求处理方法、装置、服务器及存储介质
Wang Collaborative filtering recommendation of music MOOC resources based on spark architecture
Shi et al. [Retracted] Research on Fast Recommendation Algorithm of Library Personalized Information Based on Density Clustering
CN115168474B (zh) 一种基于大数据模型的物联中台系统搭建方法
KR20180048172A (ko) 특허 정보 활용 기업 추천 시스템, 그 시스템의 정보 처리 방법 및 그 정보 처리 방법이 기록된 기록 매체
CN115203138A (zh) 数据检索方法、装置及存储介质
CN114648010A (zh) 数据表标准化方法、装置、设备及计算机存储介质
He [Retracted] Ideological and Political Teaching Resource Sharing Method Based on Edge Computing
CN114154048A (zh) 构建推荐模型的方法、装置、电子设备及存储介质
Yu Unbalanced Big Data‐Compatible Cloud Storage Method Based on Redundancy Elimination Technology
Bai et al. An efficient skyline query algorithm in the distributed environment
Dan [Retracted] Research on the Model of Distance Education Resource Integration from the Perspective of Comparative Education
Vakali et al. New directions in web data management 1

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240115

Address after: 100031, 10th to 12th floors, Building C, No. 2 Fuxingmen South Street, Xicheng District, Beijing

Applicant after: Huaneng Capital Services Co.,Ltd.

Address before: 100031 floor a, West Block C, Tianyin building, No. C, Fuxingmen South Street, Xicheng District, Beijing

Applicant before: Beijing Yuncheng Financial Information Service Co.,Ltd.

Applicant before: Huaneng Capital Services Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant