CN108491167A - 一种工业过程工况数据快速随机分布存储方法 - Google Patents

一种工业过程工况数据快速随机分布存储方法 Download PDF

Info

Publication number
CN108491167A
CN108491167A CN201810270738.8A CN201810270738A CN108491167A CN 108491167 A CN108491167 A CN 108491167A CN 201810270738 A CN201810270738 A CN 201810270738A CN 108491167 A CN108491167 A CN 108491167A
Authority
CN
China
Prior art keywords
data
server
floor
industrial process
random distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810270738.8A
Other languages
English (en)
Other versions
CN108491167B (zh
Inventor
张可
柴毅
郑雯
胡月
张悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201810270738.8A priority Critical patent/CN108491167B/zh
Publication of CN108491167A publication Critical patent/CN108491167A/zh
Application granted granted Critical
Publication of CN108491167B publication Critical patent/CN108491167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种工业过程工况数据快速随机分布存储方法,以一个主数据服务器作为数据中心,以多个从数据服务器作为数据节点,每个数据节点均与数据中心数据交互,具体步骤如下:S1:采集设备运行工况数据进行预处理后存入数据中心缓存,并在缓存中对数据种类进行编号;S2:对采集到的工况数据进行去冗余处理;S3:计算每种数据的量占总数据量的比重Pi;S4:设置阈值向量P′1,P′2,…,P′i;S5:通过比较Pi与阈值向量,将该种数据存入不同的从服务器中。本发明所述的工业过程工况数据快速随机分布存储模式,提高了信息录入速度并降低了系统的运行负载。

Description

一种工业过程工况数据快速随机分布存储方法
技术领域
本发明涉及计算机数据数据信息存储技术领域,特别涉及一种工业过程工况数据快速随机分布存储模式。
背景技术
工业过程工况数据是指在工业领域信息化应用中产生的数据。工业过程工况数据运用先进大数据技术,贯穿于工业的设计、工艺、生产、管理、服务等各个环节,使工业系统具备描述、诊断、预测、决策、控制等智能化功能。工业过程工况数据具有数据体量大、分布广泛、结构复杂、速度需求多样化、数据价值不均匀五大特征。
现有的工业过程工况数据存储系统结合内存数据库和磁盘历史数据库存储实时历史数据,存在数据采集成本高、实时性不高、数据丢失、用户体验差等问题,应用于实时性要求高、数据量不可预知、并发性强的大型工业系统中情况会更加严峻。工业过程工况数据的采集和处理具有高并发性、高实时性,提取海量数据处理需要花费比较多的资源和时间,并且数据存储效率比较慢,这些都降低了整个系统的实时性,同时增大了系统的运行负载。这就导致存储服务器成为了系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足工业过程工况数据存储应用的需要。
发明内容
本发明的目的就是提供一种工业过程工况数据快速随机分布存储方法,提高了工况数据录入效率,满足工业过程工况数据并发性强、实时性高、数据量巨大的要求;并兼具有节约内存空间,降低系统运行负载和整体功耗的作用。
本发明的目的是通过这样的技术方案实现的,包括有以一个主数据服务器作为数据中心,以多个从数据服务器作为数据节点,数据中心分别与每个数据节点数据交互,具体步骤如下:
1)采集设备运行工况数据进行预处理后存入数据中心缓存,并在缓存中对数据种类进行编号;
2)对缓存中的工况数据进行去冗余处理;
3)计算每种数据的量占总数据量的比重∑Pi=1,其中Si为某类数据量,S为总数据量;
4)设置阈值向量P′1,P′2,...,P′i,0<P′1<...<P′n<1,并设定n1,n2,...,nk的值,其中n1,n2,...,nk均为大于0的整数,其中阈值向量和ni根据实际需要设置不同的个数和数值大小;
5)比较Pi与P′1,P′2,...,P′i的大小:若P′i<P′1,则n1种数据存入同一从服务器中;若P′1<Pi<P′2,则n2种数据存入同一从服务器中;依次类推,若Pi>P′i,则该种数据存入nk个从服务器中。
进一步,步骤1)中所述在缓存中对数据种类进行编号的具体步骤如下:
1-1)对采集到的工业系统原始数据进行预处理,即对原始工况数据进行拆分、数据合法性验证、不同数据逻辑关联提取和数据格式转换;
1-2)将预处理后的工况数据存入缓存;
1-3)在缓存中对数据种类进行编号。
进一步,步骤2)中所述对缓存中的工况数据进行去冗余处理的具体步骤如下:
2-1)通过提前设定数据优先级,筛选出工况数据中的非关键信息,对它们进行丢弃处理;
2-2)提取工况数据的重复性公共信息;
2-3)采用无损压缩算法对工况数据进行压缩处理。
进一步,步骤5)中所述从服务器,根据数据热度来存储数据,多类型数据可对应同一节点,将数据节点存储空间按热度分为高速容量小、快速容量中等、中速容量大这三个层次;新鲜数据更新时,第一级按一定的分钟数放入最近更新或者访问最频繁的数据,第二级按一定的天数放入最近更新或者访问最频繁的数据,第三级按事先约定的时间周期放入更新或者访问最频繁的数据;所述数据热度,依据工业过程工况数据的访问频度和访问时间确定。
进一步,主数据服务器与从数据服务器通过心跳机制完成各个节点间的负载或死活状态的信息共享与故障检测,具体方法为:
A、从数据服务器每隔一个规定时间发一个探测包给主数据服务器;
B、从数据服务器发包时启动一个超时定时器;
C、主数据服务器接收到探测包,反馈给从数据服务器一个应答包;
D、如果从数据服务器收到主数据服务器的应答包,则说明从数据服务器工作正常,删除超时定时器;如果从数据服务器超时定时器超时,依然没有接收到应答包,说明主服务器可能出现故障,需要进行故障排查和维修。
进一步,所述主数据服务器与从数据服务器均采用结构化数据的分布式存储系统。
由于采用了上述技术方案,本发明具有如下的优点:
分布式存储系统是将数据分散存储在多台独立的设备上,采用可扩展的系统结构,利用多台存储服务器分担存储负荷,这不但提高了系统的可靠性、可用性和存取效率,还易于扩展。然而,从更高的技术层面上来说,要解决松耦合设备组成一个统一集群稳定工作的问题,远比实现一台单机的网络存储设备复杂得多,现有的分布式数据存储系统在对写入高并发性和海量性数据的处理上,能力不足,耗费更多的上层资源对数据进行抓取、处理,能耗消耗大,存取效率低。需要在此基础上对现有的分布式数据存储系统进行一定的改进以满足工业过程工况数据并发性强、实时性高、数据量巨大的要求。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
本发明的附图说明如下。
图1为本发明的系统结构示意图;
图2为本发明的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
图1为工业过程工况数据分布存储系统结构图。如图所示,本发明提供的是一种工业过程工况数据快速随机分布存储模式,以一个主数据服务器作为数据中心,以多个从数据服务器作为数据节点,每个数据节点均与数据中心数据交互,并且相同类型的数据存储在同一数据节点上,同时建立数据访问与历史数据的时间戳。各数据节点是数据中心的一个数据分区,即数据中心的一部分数据,空闲时数据中心与各数据节点不保持连接状态,数据中心与各数据节点的数据均有可能发生变更。在有需要的时候,各数据节点与数据中心通过数据交换模块连接,交换必要的数据。本发明相同类型的数据记录在同一数据节点上,可以是多类型数据对应同一节点,也可以是多从服务器对应于同一个节点。这样既有利于提高存储效率,又可以降低系统成本。
本发明以一个主数据服务器作为数据中心,以多个从数据服务器作为数据节点,对工业过程原始数据进行分布数据处理,每个数据节点均与数据中心数据交互,并且相同类型的数据存储在同一数据节点上,同时建立数据访问与历史数据的时间戳,包括以下步骤:
1)采集设备运行工况数据进行预处理后存入数据中心缓存,并在缓存中对数据种类进行编号;
2)对缓存中的工况数据进行去冗余处理;
3)计算每种数据的量占总数据量的比重∑Pi=1,其中Si为某类数据量,S为总数据量;
4)设置阈值向量P′1,P′2,...,P′i,0<P′1<...<P′n<1,并设定n1,n2,...,nk的值,其中n1,n2,...,nk均为大于0的整数,其中阈值向量和ni根据实际需要设置不同的个数和数值大小;
5)比较Pi与P′1,P′2,...,P′i的大小:若Pi<P′1,则n1种数据存入同一从服务器中;若P′1<Pi<P′2,则n2种数据存入同一从服务器中;依次类推,若Pi>P′i,则该种数据存入nk个从服务器中。
步骤1)中所述在缓存中对数据种类进行编号的具体步骤如下:
1-1)对采集到的工业系统原始数据进行预处理,即对原始工况数据进行拆分、数据合法性验证、不同数据逻辑关联提取和数据格式转换;
1-2)将预处理后的工况数据存入缓存;
1-3)在缓存中对数据种类进行编号。
步骤2)中所述对缓存中的工况数据进行去冗余处理的具体步骤如下:
2-1)通过提前设定数据优先级,筛选出工况数据中的非关键信息,对它们进行丢弃处理;
2-2)提取工况数据的重复性公共信息;
2-3)采用无损压缩算法对工况数据进行压缩处理。
步骤5)中所述从服务器,根据数据热度来存储数据,多类型数据可对应同一节点,将数据节点存储空间按热度分为高速容量小、快速容量中等、中速容量大这三个层次;新鲜数据更新时,第一级按一定的分钟数放入最近更新或者访问最频繁的数据,第二级按一定的天数放入最近更新或者访问最频繁的数据,第三级按事先约定的时间周期放入更新或者访问最频繁的数据;所述数据热度,依据工业过程工况数据的访问频度和访问时间确定。
主数据服务器与从数据服务器通过心跳机制完成各个节点间的负载或死活状态的信息共享与故障检测,具体方法为:
A、从数据服务器每隔一个规定时间发一个探测包给主数据服务器;
B、从数据服务器发包时启动一个超时定时器;
C、主数据服务器接收到探测包,反馈给从数据服务器一个应答包;
D、如果从数据服务器收到主数据服务器的应答包,则说明从数据服务器工作正常,删除超时定时器;如果从数据服务器超时定时器超时,依然没有接收到应答包,说明主服务器可能出现故障,需要进行故障排查和维修。
所述主数据服务器与从数据服务器均采用结构化数据的分布式存储系统。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种工业过程工况数据快速随机分布存储方法,包括有以一个主数据服务器作为数据中心,以多个从数据服务器作为数据节点,数据中心分别与每个数据节点数据交互,其特征在于,具体步骤如下:
1)采集设备运行工况数据进行预处理后存入数据中心缓存,并在缓存中对数据种类进行编号;
2)对缓存中的工况数据进行去冗余处理;
3)计算每种数据的量占总数据量的比重∑Pi=1,其中Si为某类数据量,S为总数据量;
4)设置阈值向量P′1,P′2,...,P′i,0<P′1<...<P′n<1,并设定n1,n2,...,nk的值,其中n1,n2,...,nk均为大于0的整数,其中阈值向量和ni根据实际需要设置不同的个数和数值大小;
5)比较Pi与P′1,P′2,...,P′i的大小:若Pi<P′1,则n1种数据存入同一从服务器中;若P′1<Pi<P′2,则n2种数据存入同一从服务器中;依次类推,若Pi>P′i,则该种数据存入nk个从服务器中。
2.如权利要求1所述的一种工业过程工况数据快速随机分布存储方法,其特征在于,步骤1)中所述在缓存中对数据种类进行编号的具体步骤如下:
1-1)对采集到的工业系统原始数据进行预处理,即对原始工况数据进行拆分、数据合法性验证、不同数据逻辑关联提取和数据格式转换;
1-2)将预处理后的工况数据存入缓存;
1-3)在缓存中对数据种类进行编号。
3.如权利要求2所述的一种工业过程工况数据快速随机分布存储方法,其特征在于,步骤2)中所述对缓存中的工况数据进行去冗余处理的具体步骤如下:
2-1)通过提前设定数据优先级,筛选出工况数据中的非关键信息,对它们进行丢弃处理;
2-2)提取工况数据的重复性公共信息;
2-3)采用无损压缩算法对工况数据进行压缩处理。
4.如权利要求3所述的一种工业过程工况数据快速随机分布存储方法,其特征在于,步骤5)中所述从服务器,根据数据热度来存储数据,多类型数据可对应同一节点,将数据节点存储空间按热度分为高速容量小、快速容量中等、中速容量大这三个层次;新鲜数据更新时,第一级按一定的分钟数放入最近更新或者访问最频繁的数据,第二级按一定的天数放入最近更新或者访问最频繁的数据,第三级按事先约定的时间周期放入更新或者访问最频繁的数据;所述数据热度,依据工业过程工况数据的访问频度和访问时间确定。
5.如权利要求1所述的一种工业过程工况数据快速随机分布存储方法,其特征在于,主数据服务器与从数据服务器通过心跳机制完成各个节点间的负载或死活状态的信息共享与故障检测,具体方法为:
A、从数据服务器每隔一个规定时间发一个探测包给主数据服务器;
B、从数据服务器发包时启动一个超时定时器;
C、主数据服务器接收到探测包,反馈给从数据服务器一个应答包;
D、如果从数据服务器收到主数据服务器的应答包,则说明从数据服务器工作正常,删除超时定时器;如果从数据服务器超时定时器超时,依然没有接收到应答包,说明主服务器可能出现故障,需要进行故障排查和维修。
6.如权利要求1所述的一种工业过程工况数据快速随机分布存储方法,其特征在于,所述主数据服务器与从数据服务器均采用结构化数据的分布式存储系统。
CN201810270738.8A 2018-03-29 2018-03-29 一种工业过程工况数据快速随机分布存储方法 Active CN108491167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810270738.8A CN108491167B (zh) 2018-03-29 2018-03-29 一种工业过程工况数据快速随机分布存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810270738.8A CN108491167B (zh) 2018-03-29 2018-03-29 一种工业过程工况数据快速随机分布存储方法

Publications (2)

Publication Number Publication Date
CN108491167A true CN108491167A (zh) 2018-09-04
CN108491167B CN108491167B (zh) 2020-12-04

Family

ID=63316816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810270738.8A Active CN108491167B (zh) 2018-03-29 2018-03-29 一种工业过程工况数据快速随机分布存储方法

Country Status (1)

Country Link
CN (1) CN108491167B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182032A (zh) * 2019-12-06 2020-05-19 重庆川仪自动化股份有限公司 工业园区数据集成管理系统及控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882983A (zh) * 2012-10-22 2013-01-16 南京云创存储科技有限公司 一种云存储系统中提升并发访问性能的数据快速存储方法
CN103699494A (zh) * 2013-12-06 2014-04-02 北京奇虎科技有限公司 一种数据存储方法、数据存储设备和分布式存储系统
CN104331428A (zh) * 2014-10-20 2015-02-04 暨南大学 一种小文件和大文件的存储及访问方法
CN105608155A (zh) * 2015-12-17 2016-05-25 北京华油信通科技有限公司 海量数据分布式存储系统
CN106302702A (zh) * 2016-08-10 2017-01-04 华为技术有限公司 数据的分片存储方法、装置及系统
CN106599184A (zh) * 2016-12-13 2017-04-26 西北师范大学 一种Hadoop系统优化方法
US9823856B1 (en) * 2017-02-24 2017-11-21 Shailendra Tripathi Intelligent flash architecture

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882983A (zh) * 2012-10-22 2013-01-16 南京云创存储科技有限公司 一种云存储系统中提升并发访问性能的数据快速存储方法
CN103699494A (zh) * 2013-12-06 2014-04-02 北京奇虎科技有限公司 一种数据存储方法、数据存储设备和分布式存储系统
CN104331428A (zh) * 2014-10-20 2015-02-04 暨南大学 一种小文件和大文件的存储及访问方法
CN105608155A (zh) * 2015-12-17 2016-05-25 北京华油信通科技有限公司 海量数据分布式存储系统
CN106302702A (zh) * 2016-08-10 2017-01-04 华为技术有限公司 数据的分片存储方法、装置及系统
CN106599184A (zh) * 2016-12-13 2017-04-26 西北师范大学 一种Hadoop系统优化方法
US9823856B1 (en) * 2017-02-24 2017-11-21 Shailendra Tripathi Intelligent flash architecture

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QINGYING LIN.ET AL: "An Optimal Data Replica Placement", 《CITCS 2015》 *
田昶: "海量空间数据的分布式存储管理及并行处理技术分析", 《电子技术与软件工程》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182032A (zh) * 2019-12-06 2020-05-19 重庆川仪自动化股份有限公司 工业园区数据集成管理系统及控制方法

Also Published As

Publication number Publication date
CN108491167B (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
US8997109B2 (en) Apparatus and method for managing data stream distributed parallel processing service
CN110032449A (zh) 一种优化gpu服务器的性能的方法及装置
CN102385554B (zh) 重复数据删除系统的优化方法
Fu et al. Layered virtual machine migration algorithm for network resource balancing in cloud computing
US9235590B1 (en) Selective data compression in a database system
CN105227645A (zh) 一种云数据迁移方法
CN110188080A (zh) 基于客户端高效缓存的远程文件数据访问性能优化方法
CN104102543A (zh) 一种云计算环境中负载调整的方法和装置
CN107179878A (zh) 基于应用优化的数据存储的方法和装置
CN103631894A (zh) 一种基于hdfs的动态副本管理方法
CN109918450B (zh) 基于分析类场景下的分布式并行数据库及存储方法
WO2020034492A1 (zh) 虚拟网络功能扩容与缩容方法及系统
TW201738781A (zh) 資料表連接方法及裝置
CN115718644A (zh) 一种面向云数据中心的计算任务跨区迁移方法及系统
WO2021027331A1 (zh) 基于图数据的全量关系计算方法、装置、设备及存储介质
Wang et al. A Data-Aware Remote Procedure Call Method for Big Data Systems.
Pimpley et al. Optimal resource allocation for serverless queries
CN103258389B (zh) 自助终端上传文件的方法、系统和自助终端
CN106201658A (zh) 一种迁移虚拟机目的主机多目标优化选择方法
CN108491167A (zh) 一种工业过程工况数据快速随机分布存储方法
Fazul et al. Improving data availability in HDFS through replica balancing
CN108287760A (zh) 终端设备控制方法及装置、终端设备及计算机可读存储介质
CN106775942B (zh) 一种云应用导向的固态盘缓存管理系统及方法
CN112003900B (zh) 实现分布式系统中高负载场景下服务高可用的方法、系统
Ray et al. Adaptive data center network traffic management for distributed high speed storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant