CN116166691B - 一种基于数据划分的数据归档系统、方法、装置及设备 - Google Patents

一种基于数据划分的数据归档系统、方法、装置及设备 Download PDF

Info

Publication number
CN116166691B
CN116166691B CN202310430169.XA CN202310430169A CN116166691B CN 116166691 B CN116166691 B CN 116166691B CN 202310430169 A CN202310430169 A CN 202310430169A CN 116166691 B CN116166691 B CN 116166691B
Authority
CN
China
Prior art keywords
data
frequency
temperature
module
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310430169.XA
Other languages
English (en)
Other versions
CN116166691A (zh
Inventor
刘华军
马树良
刘方
张舒庆
秦经刚
施毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN202310430169.XA priority Critical patent/CN116166691B/zh
Publication of CN116166691A publication Critical patent/CN116166691A/zh
Application granted granted Critical
Publication of CN116166691B publication Critical patent/CN116166691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于数据划分的数据归档系统、方法、装置及设备,系统包括数据采集模块、数据存储模块、数据划分模块、高频数据欠采样模块、实时发布模块和数据检索模块。创建EPICS和ZeroMQ数据归档引擎以分别采集低频工程数据和高频实验数据;提出一种综合访问时间、访问频率以及存储顺序的多维度特征数据划分算法,将历史数据划分为热数据、温数据和冷数据并分别存储于内存、固态硬盘和机械硬盘;根据采集频率动态计算合适的集中量数并创建冗余数据表存储特征数据。通过计算数据温度并进行冷热划分以分层存储于不同数据载体,同时对高频数据欠采样并创建冗余数据表存储特征数据,能够减少平均数据检索时间,提高查询速度。

Description

一种基于数据划分的数据归档系统、方法、装置及设备
技术领域
本发明涉及数据归档技术领域,具体涉及一种基于数据划分的数据归档系统、方法、装置及设备。
背景技术
大型磁体实验设施是针对未来大型超导磁体的技术要求建立的大型实验平台,建成后进行超导磁体原型件或模型件的低温实验研究,探索多物理场、复杂载荷条件下的磁体载流、损耗、耐压等电磁特性,评估强电磁干扰下的系统兼容性、可靠性、稳定性及故障态下的磁体安全性,验证工程技术的可靠性。同时,也为其它领域提供大口径、真空、低温研究环境。大型磁体实验设施体积庞大、信号数量众多且采集频率较高,在其长时间运行过程中将产生海量的历史数据。这些历史数据对于装置运行维护、关键部件性能诊断和实验数据分析处理至关重要,因此,对于大型磁体实验设施而言,历史数据归档系统是其不可缺少的组成部分。
随着大型磁体实验设施的持续运行,历史数据累积量将越来越多,服务器的数据存储规模达到PB级。海量历史数据存储导致数据检索时间延长,影响科研工作者的科学研究工作。大型磁体实验设施历史数据长期保存,检索速度慢是亟待解决的问题,但是目前尚无有效的解决方法。
发明内容
为解决上述技术问题,本发明提供一种基于数据划分的数据归档系统、方法、装置及设备,提供一种综合访访问时间、访问频率以及存储顺序三个数据属性特征历史数据划分方法,标识数据重要性程度,区分热数据、温数据和冷数据并分层存储于不同的存储介质。同时对高频数据进行欠采样并建立冗余数据表,动态抽取特征数据。采用本发明能够减少海量历史数据存储条件下的检索响应时间,提高检索速度。
本发明的目的是通过以下技术方案实现的:
一种基于数据划分的数据归档系统,包括数据采集模块、数据存储模块、数据划分模块、高频数据欠采样模块、实时发布模块和数据检索模块;
所述数据采集模块用于与控制系统建立连接并采集运行数据,兼容EPICS和基于ZeroMQ框架的两种控制系统架构;
所述数据存储模块用于接收并解析数据采集模块交付的运行数据,创建缓冲区缓存突发大流量数据,调用多线程存储引擎并采用多级缓存策略将数据快速完整的存储到服务器数据库;
所述数据划分模块根据数据相关信息计算数据温度,表征数据冷热程度,分别划分为热数据、温数据和冷数据并存储于内存、固态硬盘和机械硬盘实现历史数据分层存储;
所述高频数据欠采样模块用于对高频实验数据进行欠采样,根据通道采集频率动态抽取或计算数据段集中量数,对数据降频并创建特征数据表实现特征数据冗余存储;
所述实时发布模块采用TCP协议接收实时运行数据并利用Socket协议将实时运行数据发布到Web前端,同时创建系统运行保障机制定时检测系统运行状态并进行远程发布;
所述数据检索模块根据多样化的检索条件实现多条件复合检索,根据检索目的和数据类型选择不同的数据检索策略以减少数据检索响应时间。
进一步地,所述数据采集模块分别构造面向EPICS和基于ZeroMQ控制系统架构的数据采集引擎;EPICS数据采集引擎根据数据采集频率平衡划分PV集合,为子PV集添加侦听器和监视器,并行获取运行数据并写入缓存区;ZeroMQ数据采集引擎通过请求响应模式建立命令传递通道,利用发布订阅模式搭建数据传输模型,采用多线程异步拉取数据并发布到内存储器。
进一步地,所述数据划分模块基于牛顿冷却定律推导公式创建数据温度模型,从历史数据访问时间、访问频率、存储顺序三个维度改进温度计算公式;通过创建数据划分表维持全局数据的温度信息并排序,进而根据数据温度划分历史数据;数据划分表中存储数据ID、存储时间、访问时间、访问次数和温度值,分别采用内存、固态硬盘、机械硬盘分别存储划分后的热数据、温数据和冷数据,设置内存阈值,防止数据溢出;所述数据划分模块监控历史数据的用户访问情况,统计用户访问次数并更新数据划分表,在服务器负载较轻的时间段统一计算数据热度并重新划分历史数据,进行热数据抽取和冷数据迁移,定时更新热数据库和温数据库。
进一步地,所述高频数据欠采样模块根据归档信息中的通道采集频率判断是否达到设定阈值,若大于设定阈值则根据阈值和采集频率计算特征数据欠采样比例,从而动态抽取或计算包括众数、中位数或几何平均数在内的集中量数,进而将特征数写入冗余数据表实现特征数据抽取,降低数据频率。
本发明还提供一种基于数据划分的数据归档方法,包括以下步骤:
步骤一:数据采集,根据控制系统IP、端口和协议创建数据套接字,持续采集运行数据并在进程间发布或写入缓存;
步骤二:数据存储,平衡划分采集到的运行数据,并行异步地将数据经过多级缓存安全完整的存储到服务器;
步骤三:数据划分及欠采样,基于牛顿冷却定律推导公式并结合数据存储时间、访问时间、访问次数计算数据温度,将历史数据划分为热数据、温数据和热数据并分层存储;对高频脉冲数据进行欠采样,抽取特征数据并冗余存储,原始数据则存储于冷数据库;
步骤四:数据实时发布及检索,接收采集到的运行数据并实时发布到用户界面同时将系统运行状态信息远程发布到Web前端;组合数据检索条件,逐级检索热数据库、温数据库和冷数据库。
为实现上述目的,本发明还提供一种数据归档装置,所述数据归档装置包括应用服务器、数据服务器、局域网络和客户端。所述客户端主要包括浏览器。
所述应用服务器主要包括处理器、通信总线、第一网络接口和第一存储器。
所述数据服务器包括内存、通讯总线、固态硬盘和机械硬盘。
为实现上述目的,本发明还提供了一种数据归档设备,用于执行上述基于数据划分的数据归档系统和方法,包括处理器、第二存储器、I/O接口、第二网络接口、通信总线和数据归档程序。所述数据归档程序存放在第二存储器中并被被处理器执行时实现上述基于数据划分的数据归档方法步骤。
本发明的有益效果:
在本发明中,对工程数据和实验数据分别采集并独立存储,基于牛顿冷却定律并综合存储顺序、访问时间和访问频率三个属性特征建立数据温度计算模型,将历史数据划分为热数据、温数据和冷数据并分层存储于内存、固态硬盘和机械硬盘。对高频实验数据进行降采样并冗余存储以减少数据检索时间。订阅运行数据并实时发布到web前端,根据检索条件灵活选择数据查询策略。通过该数据归档方式能够实现运行数据安全可靠存储,减少数据存储成本,提高数据检索速度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的数据归档系统原理框图。
图2为本发明实施例数据采集及存储流程图。
图3为本发明实施例提供的数据划分原理图。
图4为本发明实施例所述的高频数据欠采样方法示意图。
图5为本发明实施例提供的数据检索流程示意图。
图6为本发明实施例数据归档装置结构示意图。
图7为本发明实施例数据归档设备结构示意图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于数据划分的数据归档系统及方法,能够实现运行数据快速可靠存储,通过将历史数据划分为热数据、温数据和冷数据并存储于不同的存储介质中能够提高数据检索响应速度。本实施例的系统原理框图如图1所示,包括控制系统101,浏览器102,数据采集模块103,数据存储模块104,数据划分模块105,高频数据欠采样模块106,实时发布模块107,数据检索模块108,冷数据库109,温数据库110和热数据库111。
所述控制系统101的系统架构可以是国内外广泛采用的EPICS架构,也可以是其他基于ZeroMQ等消息通信库的分布式控制架构。
所述浏览器102为数据归档系统的客户端,客户端可以是电脑、平板、手机等具备网络浏览器的硬件设备。
具体的,面对基于ZeroMQ的控制系统架构,所述数据采集模块103包括工程数据采集引擎和实验数据采集引擎。数据采集及存储流程图如图2所示。所述工程数据采集引擎通过解析配置文件与控制系统101建立连接,采用订阅模式建立TCP连接,可以通过消息主题有选择地接收数据,多线程异步并行循环写入缓存区,最后读取数据缓存区数据并直接写入机械硬盘;所述实验数据采集引擎通过请求响应模式与控制系统101建立持久性命令连接通道,通过解析命令内容获取实验数据归档信息,可根据控制系统的“Start Ramp”、“Stop Ramp”等控制命令调用响应服务程序。之后解析实验数据归档信息并与控制系统建立稳定的管道传输模型,创建多个数据采集线程异步拉取实验数据,同时在服务器内存中同步发布所有通道数据。同时采用多个数据转储线程订阅数据采集线程在内存中发布的实验数据并写入固态硬盘,最后将实验数据转储到机械硬盘进行持久化存储。
具体的,面向基于EPICS的控制系统架构,可基于JCA API并采用多线程技术实现并行数据归档功能,各线程之间彼此独立、互不干扰,能够同时获取多路EPICS PV。通过分析所有信号采集频率,平衡划分PV集,加载properties格式配置文件生成CA上下文,创建多个数据采集线程与IOC服务器建立通道链接,为子PV集添加侦听器和监视器,监控PV变化,获取数据并存入缓存区。
具体的,所述数据存储模块104包括工程数据存储引擎和实验数据存储引擎。所述工程数据存储引擎调用多线程服务循环读取缓存数据并批量写入到机械硬盘。所述实验数据存储引擎根据通道名动态划分通道集合,根据子集合创建数据存储线程,采用进程内协议拉取实验数据,先写入固态硬盘再转储到机械硬盘。
具体的,所述数据存储模块对历史数据进行分布式存储以满足不断增长的数据存储需求,同时创建数据副本实现容灾备份。当数据写入时,根据分片键将数据分发到不同的服务器,通过配置服务实例和路由服务实例定位数据存储位置。历史数据通过主从复制机制实现冗余备份,该服务在服务器负载较轻的时间段运行,故存在一定时延。
具体的,所述数据划分模块105以不同的时间粒度(例如1h、1d等)计算历史数据热度。为对历史数据划分,需要对数据段进行排列,以选出热度高的数据作为热数据,热度低的数据被归类为冷数据,介于两者之间的部分数据,其数据热度较高且具备一定的访问概率,故将其划分为温数据。
具体的,所述高频数据欠采样模块106通过抽取或计算高频数据的特征数据来代表整个数据段实现数据降频。该特征数据可以为平均数或中位数等能代表数据段的特征值。通过特征数据代表整体数据能够减少数据表中数据量,从而减少数据检索时间,对于部分不需要精确显示的用户检索操作具备重要意义。
具体的,所述实时发布模块的主要作用是将运行数据实时推送到用户界面,使科研人员能够通过互联网络远程查看实验或装置状态。实时发布模块可将运行数据通过WebSocket等技术推送到前端站点,系统前端通过订阅该站点内容获取数据。
具体的,所述数据检索模块在发起检索请求后首先访问内存,根据内存命中情况选择不同的检索策略。若内存命中,则直接返回数据;若内存未命中则到高速固态硬盘中进一步检索温数据库,进而根据温数据库检索情况决定是否到机械硬盘中的冷数据库中进行最终数据检索。
本发明实施例提供的数据划分原理如图3所,包括数据写入时数据温度初始化任务、用户访问统计任务和温度计算及划分任务。
具体的,数据温度初始化任务解析控制系统传输的运行数据后对数据进行封装并逐级写入到数据库。在每条数据写入后记录数据ID和存储时间,同时赋予数据初始化温度值,将数据温度信息封装为数据信息实体并写入数据划分表。
具体的,用户访问统计任务在系统运行时执行用户访问监控程序,统计不同数据的用户访问次数,根据数据ID更新数据划分表中的访问次数字段,其他内存暂时不变。
具体的,数据温度计算及划分任务由于数据温度计算消耗大量时空资源,选择在服务器负载较轻的时间段执行数据温度计算程序、历史数据划分程序和冷热数据迁移程序。在定时任务启动后,温度计算程序读取数据划分表中的数据访问时间、访问次数等信息并采用温度计算公式统一计算当前时刻温度并写入数据划分表;之后历史数据划分程序从数据划分表中读取温度信息并对数据进行排序,根据设定的热数据数量参数将历史数据划分为冷数据、温数据和热数据;最后冷热数据迁移程序将热数据抽取到内存并将温数据转储到固态硬盘,而将冷数据保存在机械硬盘。为防止内存数据丢失,机械硬盘可选择保留热数据备份。此外,系统监测热数据库使用率是否达到设定阈值,如果达到则执行数据淘汰任务,为新的热数据提供存储空间。
优选的,数据温度计算及划分任务所执行的数据划分程序是对本实施例提出的冷热数据划分算法的具体实现。数据冷热划分算法可以类比操作系统的缓存替换算法,传统的缓存替换算法包括First in first out (FIFO)、Least recently used (LRU)、Least-frequently used (LFU)等。FIFO、LRU、LFU分别根据数据存储先后顺序、访问时间、访问频率的单一特征区分冷热数据,存在局限性。本实施例克服以上三种传统算法的单一化不足,提出了一种综合数据访问时间、访问频率和存储顺序的多维度特征冷热数据划分算法。
本实施例采用牛顿冷却定律构建对数据访问时间敏感的温度模型。牛顿冷却定律描述了高温物体在低温环境中其温度随时间呈指数衰减规律的变化过程,指数衰减数学模型被应用于多个自然科学领域,例如放射性衰变、RC电路电流减小、大气压力随海拔高度减少等等。现实世界数据的冷热程度同样是随时间衰减的,其降温过程与物体冷却过程类似,同牛顿冷却定律基本含义相一致。数据温度在被访问后上升一定高度,随后在不被访问的时间段内快速“冷却”并趋向于0,符合指数衰减模型,因此可基于牛顿冷却定律建立历史数据随访问时间衰减的温度模型。牛顿冷却定律认为物体的冷却速率与其和环境的温差成正比关系,其公式如式(1)所示,其中
Figure SMS_1
表示物体温度,/>
Figure SMS_2
表示环境温度,/>
Figure SMS_3
为时间,/>
Figure SMS_4
为物体温度冷却速率与其和环境的温差的比例系数。
Figure SMS_5
(1)
对式(1)求解可得物体温度公式(2)。
Figure SMS_6
(2)
其中
Figure SMS_7
为物体初始温度。
对现实数据而言,环境温度没有意义。在仅考虑数据访问时间的条件下,忽略环境温度,数据在
Figure SMS_8
时刻的温度可由式(3)计算得到,/>
Figure SMS_9
为数据上次受到访问的时间。
Figure SMS_10
(3)
式(3)仅考虑了访问时间对数据温度的影响,然而数据库中的数据冷热程度同样依赖于访问频率。根据LFU算法思想,同一时间段内数据访问次数越多的数据温度越高。当数据被访问时,其温度将得到一定增幅。将温度增幅定义为
Figure SMS_11
,对式(3)变形可得兼顾访问时间和访问频率的温度计算公式(4)。
Figure SMS_12
(4)
数据个体的差异性决定了其重要性不尽相同,故
Figure SMS_15
的取值不能简单地定义为常量,应根据数据属性单独计算。FIFO算法认为最先进入存储队列的数据未来被访问的概率最小,即数据存储时间越长的数据价值越低。因此不同存储时间的数据在受到访问后,其增温幅度应有所不同,数据温度增幅随存储时间增加而减少。根据FIFO算法思想,本实施例采用历史数据存储时间计算不同数据被访问后的温度增幅,基于物质科学领域普遍用来描述物理量随时间变化过程的“e指数规律”构建温度增幅关于存储时间的指数衰减模型。本实施例引入控制系统运行时间以限定温度增幅取值范围,/>
Figure SMS_18
定义如式(5)所示。其中,/>
Figure SMS_19
为一天内数据的访问次数,/>
Figure SMS_14
表示数据存储时间,/>
Figure SMS_17
表示控制系统运行时间。根据e指数函数性质,在单次访问/>
Figure SMS_20
条件下,当数据存储时间等于控制系统运行时间时温度增幅取最小值/>
Figure SMS_21
,当数据存储时间趋向于0时温度增幅接近1,故单次访问的/>
Figure SMS_13
取值范围为/>
Figure SMS_16
到1。
Figure SMS_22
(5)
将式(5)代入式(4)得到数据温度的最终计算公式(6)。其中,
Figure SMS_23
表示数据在
Figure SMS_24
时刻的温度,/>
Figure SMS_25
为数据在/>
Figure SMS_26
时刻的温度。比例系数/>
Figure SMS_27
能够调整数据冷却速率,可以根据数据划分需求进行选择,本实施例设置/>
Figure SMS_28
值为0.005。
Figure SMS_29
(6)
冷热数据划分算法通过多维度数据特征量化并标识数据冷热程度,利用公式(6)可以轻松计算得到历史数据温度。为提高数据读取速度,本实施例采用基于内存、SSD(固态硬盘)和机械硬盘的混合存储架构存储历史数据。由于内存存在易失性,本实施例创建数据划分表对最近访问时间、访问次数、存储时间、数据温度等信息进行持久化存储。通过分段计算并持久化存储所有数据的温度值,本实施例可以在任意时刻读取数据划分表获取历史数据温度信息。
本实施例所述的高频数据欠采样方法如图4所示。本实施例在历史数据存储过程中创建了归档信息表存储实验信息和所有通道的通道名、单位、采集频率等内容。历史数据欠采样流程包含以下步骤:
步骤一:在数据欠采样的过程中,首先读取归档信息表数据。
步骤二:根据实验数据ID和通道名称获取实验信息和通道采集频率。
步骤三:判断通道采集频率是否大于设定阈值(本实施例设为10Hz),如果是则对该数据段进行欠采样,保留10个特征数据点并写入冗余数据表;否则直接写入冗余数据表。
进一步的,本实施例使用集中量数作为特征数据。集中量数表示一组数据中大量数据集中在某一点或其上下的情况说明了该组数据的集中趋势,能够代表一组数据的典型特征,包括算术平均数、中数、众数、加权平均数、几何平均数、调和平均数等。可根据装置运行数据特点选择合适的集中量数作为特征数。
进一步的,本实施例根据通道数据采集频率动态计算特征数据,根据采集频率大小选择不同的欠采样比例。若采集频率为100Hz,则每10个点进行一次特征数据计算;若采集频率为10KHz,则每1000个点计算一个特征数。使用特征数代表高采样率通道1s内的所有数据,能够减少数据检索和Web界面渲染时间,能够满足大部分只需要查看装置运行状态和实验数据变化趋势的用户访问行为。
本实施例所提供的数据检索流程如图5所示,按照检索数据类型可分为工程数据检索和实验数据检索。工程数据可根据通道名称和时间范围的组合条件进行检索操作,而实验数据在具备工程数据检索条件的基础上还拥有实验名称检索条件。在用户进行检索操作后,首先检索热数据库;若热数据库未命中,则检索温数据库;若温数据库未命中,则检索冷数据库。判断通道采集频率是否≤10Hz,若小于10Hz则检索原始数据表;否则检索冗余数据表。检索成功后将数据进行Web界面渲染后返回客户端。
本发明实施例还提出一种基于数据划分的数据归档装置,参照图6,所述数据归档装置包括应用服务器10、局域网络15、客户端16和数据服务器17。
系统用户可通过客户端16中的浏览器工具远程访问应用服务器10并得到可视化的Web界面。在数据检索界面执行数据查询操作后,查询请求将传输到应用服务器10。应用服务器10根据请求数据的时间和通道名称到相应服务器查询数据,查询成功后将数据合并,渲染到HTML界面并返回给客户端。
应用服务器10、客户端16和数据服务器17三者之间通过局域网络15进行消息传递和数据传输。
所述应用服务器10的主要作用是为基于数据划分的数据归档系统提供运行环境,为用户访问提供Web界面资源,是与外部环境交互的接口设备。
应用服务器10主要包括处理器11、通信总线12、第一网络接口13和第一存储器14。
所述通信总线12主要用于在服务器各个模块之间传递数据和消息。
所述网络接口13主要是与网络中的不同设备之间建立连接。
所述存储器14主要用于存储数据归档程序及其相应的支持软件(如操作系统等)和数据归档配置信息。
所述处理器11的主要作用是调用数据归档程序,执行数据采集和存储任务,创建数据划分表并初始化数据温度信息,根据温度计算公式计算所有数据热度,通过数据温度将数据划分为热数据、温数据和冷数据。执行数据迁移程序将不同温度数据迁移到对应的存储介质,运行Web服务器程序为用户提供可访问的数据资源。
所述数据服务器17是历史数据持久化存储容器,包括内存18、通讯总线19、固态硬盘20和机械硬盘21。其中内存18存储热数据,固态硬盘20存储温数据,机械硬盘21存储冷数据,三者之间通过数据总线19进行数据迁移。
所述机械硬盘21中还存储数据库程序、通信接口和操作系统。数据库程序包括热数据库程序、温数据库程序和冷数据库程序,并通过操作系统为数据库程序执行提供运行环境支撑。
本发明实施例还提出一种基于数据划分的数据归档设备,参照图7,包括处理器1001、通信总线1002、I/O接口1003、第二网络接口1004、第二存储器1005。
所述第二存储器1005和处理器1001分别用于存储和执行上述基于数据划分的数据归档系统及方法。
所述通信总线1002主要用于在数据归档设备各个模块之间传递数据和消息。
所述I/O接口1003的主要作用是与用户端进行消息传递和数据传输。所述第二网络接口1004主要是与网络中的不同设备之间建立连接。所述第二存储器1005还包括操作系统和数据归档配置信息。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (4)

1.一种基于数据划分的数据归档系统,其特征在于,包括数据采集模块、数据存储模块、数据划分模块、高频数据欠采样模块、实时发布模块和数据检索模块;
所述数据采集模块用于与控制系统建立连接并采集运行数据,兼容EPICS和基于ZeroMQ框架的两种控制系统架构;
所述数据存储模块用于接收并解析数据采集模块交付的运行数据,创建缓冲区缓存突发大流量数据,调用多线程存储引擎并采用多级缓存策略将数据快速完整的存储到服务器数据库;
所述数据划分模块根据数据信息计算数据温度,表征数据冷热程度,分别划分为热数据、温数据和冷数据并存储于内存、固态硬盘和机械硬盘实现历史数据分层存储;
所述高频数据欠采样模块用于对高频实验数据进行欠采样,根据通道采集频率动态抽取或计算数据段集中量数,对数据降频并创建特征数据表实现特征数据冗余存储;
所述实时发布模块采用TCP协议接收实时运行数据并利用Socket协议将实时运行数据发布到Web前端,同时创建系统运行保障机制定时检测系统运行状态并进行远程发布;
所述数据检索模块根据多样化的检索条件实现多条件复合检索,根据检索目的和数据类型选择不同的数据检索策略以减少数据检索响应时间;按照检索数据类型,数据检索分为工程数据检索和实验数据检索;工程数据根据通道名称和时间范围的组合条件进行检索操作,实验数据在具备工程数据检索条件的基础上还拥有实验名称检索条件;在用户进行检索操作后,首先检索热数据库;若热数据库未命中,则检索温数据库;若温数据库未命中,则检索冷数据库;判断通道采集频率是否≤10Hz,若小于10Hz则检索原始数据表;否则检索冗余数据表;检索成功后将数据进行Web界面渲染后返回客户端;
所述数据采集模块分别构造面向EPICS和基于ZeroMQ框架的控制系统的数据采集引擎;EPICS数据采集引擎根据数据采集频率平衡划分PV集合,为子PV集添加侦听器和监视器,并行获取运行数据并写入缓存区;ZeroMQ数据采集引擎通过请求响应模式建立命令传递通道,利用发布订阅模式搭建数据传输模型,采用多线程异步拉取数据并发布到内存储器;
所述数据划分模块基于牛顿冷却定律推导公式创建数据温度模型,从历史数据访问时间、访问频率、存储顺序三个维度改进温度计算公式;通过创建数据划分表维持全局数据的温度信息并排序,进而根据数据温度划分历史数据;数据划分表中存储数据ID、存储时间、访问时间、访问次数和温度值,分别采用内存、固态硬盘、机械硬盘分别存储划分后的热数据、温数据和冷数据,设置内存阈值,防止数据溢出;所述数据划分模块监控历史数据的用户访问情况,统计用户访问次数并更新数据划分表,在服务器负载较轻的时间段统一计算数据热度并重新划分历史数据,进行热数据抽取和冷数据迁移,定时更新热数据库和温数据库;
所述高频数据欠采样模块根据归档信息中的通道采集频率判断是否达到设定阈值,若大于设定阈值则根据阈值和采集频率计算特征数据欠采样比例,从而动态抽取或计算包括众数、中位数或几何平均数在内的集中量数,进而将特征数写入冗余数据表实现特征数据抽取,降低数据频率。
2.一种实现如权利要求1所述的一种基于数据划分的数据归档系统的归档方法,其特征在于,包括以下步骤:
步骤一:数据采集,根据控制系统IP、端口和协议创建数据套接字,持续采集运行数据并在进程间发布或写入缓存;
步骤二:数据存储,平衡划分采集到的运行数据,并行异步地将数据经过多级缓存安全完整的存储到服务器;
步骤三:数据划分及欠采样,基于牛顿冷却定律推导公式并结合数据存储时间、访问时间、访问次数计算数据温度,将历史数据划分为热数据、温数据和冷数据并分层存储;对高频脉冲数据进行欠采样,抽取特征数据并冗余存储,原始数据则存储于冷数据库;
步骤四:数据实时发布及检索,接收采集到的运行数据并实时发布到用户界面,同时将系统运行状态信息远程发布到Web前端;组合数据检索条件,逐级检索热数据库、温数据库和冷数据库。
3.实现权利要求2所述的归档方法的装置,其特征在于,包括应用服务器、数据服务器、局域网络和客户端;
所述客户端包括浏览器;
所述应用服务器包括处理器、通信总线、第一网络接口和第一存储器;
所述数据服务器包括内存、通讯总线、固态硬盘和机械硬盘。
4.一种基于数据划分的数据归档设备,其特征在于,用于执行权利要求2的基于数据划分的数据归档方法,包括处理器、存储器、I/O接口、第二网络接口、通信总线和数据归档程序;
所述数据归档程序存放在存储器中,其在被处理器执行时实现如权利要求2所述的归档方法的步骤。
CN202310430169.XA 2023-04-21 2023-04-21 一种基于数据划分的数据归档系统、方法、装置及设备 Active CN116166691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310430169.XA CN116166691B (zh) 2023-04-21 2023-04-21 一种基于数据划分的数据归档系统、方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310430169.XA CN116166691B (zh) 2023-04-21 2023-04-21 一种基于数据划分的数据归档系统、方法、装置及设备

Publications (2)

Publication Number Publication Date
CN116166691A CN116166691A (zh) 2023-05-26
CN116166691B true CN116166691B (zh) 2023-07-11

Family

ID=86422192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310430169.XA Active CN116166691B (zh) 2023-04-21 2023-04-21 一种基于数据划分的数据归档系统、方法、装置及设备

Country Status (1)

Country Link
CN (1) CN116166691B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116974467A (zh) * 2023-06-20 2023-10-31 杭州拓数派科技发展有限公司 数据缓存处理方法、装置和系统
CN116894041B (zh) * 2023-09-06 2023-11-17 北京四维纵横数据技术有限公司 数据存储方法、装置、计算机设备及介质
CN118018882B (zh) * 2024-04-09 2024-06-18 苏州元澄科技股份有限公司 一种物联网数据的采集与存储方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8375193B2 (en) * 2009-05-27 2013-02-12 Teradata Us, Inc. System, method, and computer-readable medium for optimized data storage and migration in a database system
CN106777342A (zh) * 2017-01-16 2017-05-31 湖南大学 一种基于可靠性的高性能文件系统混合节能存储系统及方法
JP2019197325A (ja) * 2018-05-08 2019-11-14 キヤノン株式会社 情報処理システム、情報処理装置とその制御方法及びプログラム
JP2021149401A (ja) * 2020-03-18 2021-09-27 Necプラットフォームズ株式会社 ストレージ管理システム、ストレージ管理方法及びプログラム
CN112559459B (zh) * 2020-12-15 2024-02-13 跬云(上海)信息科技有限公司 一种基于云计算的自适应存储分层系统及方法
CN113687960B (zh) * 2021-08-12 2023-09-29 华东师范大学 一种基于深度强化学习的边缘计算智能缓存方法
US11983156B2 (en) * 2021-08-17 2024-05-14 Janak Babaji Alford System and method for indexing large volumes and durations of temporally-based sensor datasets

Also Published As

Publication number Publication date
CN116166691A (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN116166691B (zh) 一种基于数据划分的数据归档系统、方法、装置及设备
US11074560B2 (en) Tracking processed machine data
Chan et al. Maintaining interactivity while exploring massive time series
EP2946333B1 (en) Efficient query processing using histograms in a columnar database
US8539161B2 (en) Pre-fetching content items based on social distance
CN103914485B (zh) 一种远程收集和检索展示应用系统日志的系统及方法
CN111427844B (zh) 一种面向文件分级存储的数据迁移系统及方法
CN107040422A (zh) 一种基于物化缓存的网络大数据可视化方法
CN110175154A (zh) 一种日志记录的处理方法、服务器及存储介质
US10157213B1 (en) Data processing with streaming data
JPS60140446A (ja) 記憶階層制御方式
EP3796185B1 (en) Virtual database tables with updatable logical table pointers
CN110837592A (zh) 数据归档的方法、装置和计算机可读存储介质
CN107426319A (zh) 存储受约束的共享内容项同步
JP2009251874A (ja) 時系列データ保存装置および時系列データ保存方法
CN108228709A (zh) 数据存储方法和系统、电子设备、程序和介质
CN107193494A (zh) 一种基于ssd和hdd混合存储系统的rdd持久化方法
CN111240936A (zh) 一种数据完整性校验的方法及设备
Tanted et al. Database and caching support for adaptive visualization of large sensor data
CN111414355A (zh) 一种海上风电场数据监测存储系统及方法、装置
US20230169079A1 (en) Scaling query processing resources for efficient utilization and performance
CN114756509A (zh) 文件系统的操作方法、系统、设备以及存储介质
CN113177036A (zh) 一种监测数据的存储方法、查询方法、显示方法
Song et al. A Novel Hot-cold Data Identification Mechanism Based on Multidimensional Data
Guo et al. An Effective tile caching mechanism of UAV remote sensing map based on hilbert coding index

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant