CN103631912A - 一种利用非关系数据库存储海量工业设备监测数据的方法 - Google Patents

一种利用非关系数据库存储海量工业设备监测数据的方法 Download PDF

Info

Publication number
CN103631912A
CN103631912A CN201310617021.3A CN201310617021A CN103631912A CN 103631912 A CN103631912 A CN 103631912A CN 201310617021 A CN201310617021 A CN 201310617021A CN 103631912 A CN103631912 A CN 103631912A
Authority
CN
China
Prior art keywords
relational database
data
industrial equipment
client
client computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310617021.3A
Other languages
English (en)
Other versions
CN103631912B (zh
Inventor
王建民
刘英博
张力
钟雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201310617021.3A priority Critical patent/CN103631912B/zh
Publication of CN103631912A publication Critical patent/CN103631912A/zh
Application granted granted Critical
Publication of CN103631912B publication Critical patent/CN103631912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种利用非关系数据库存储海量工业设备监测数据的方法,属于计算机数据库管理技术领域。首先使多个非结构化数据管理系统组成分布式结构的非关系数据库集群,从关系数据库中读取海量工业设备监测数据,并将读取的监测数据以逗号分隔的文本文件形式存储到多台客户机中,建立一个非关系数据库存储模式,将客户机上的上述以逗号分隔的文本文件导入到非关系数据库集群中。本方法能够有效存储海量的设备监测数据,并支持快速数据查询与分析,使得企业能够对海量监测数据进行查询和分析,挖掘监测数据中具有商业价值的信息,最终达到对工业生产的设计、制造、销售、使用与维护等方面提供借鉴的目的。

Description

一种利用非关系数据库存储海量工业设备监测数据的方法
技术领域
本发明涉及一种利用非关系数据库存储海量工业设备监测数据的方法,属于计算机数据库管理技术领域。
背景技术
随着制造业的迅猛发展,在面向大型设备的企业信息化过程中,越来越多的传感器被应用到工业生产线和工程机械设备中,进而产生了大量工业设备监测数据。这些数据通常产生于工程机械设备上大量的传感器,并实时地通过移动网络发送给服务平台,并存储在中心数据库中。通过存储、分析这些数据,企业可以挖掘具有商业价值的信息,对工业生产的设计、制造、销售、使用与维护等生命周期都有借鉴意义。例如,对机械产品进行故障预警或者故障诊断时,通过对监测数据的分析,可以挖掘机械设备发生故障前监测数据的规律,对即将发生的故障进行预警。
工业设备监测数据多以时序数据为主,通常具有数据量大、连续、易丢失、具有高度的领域相关性等特点,是一种典型的流数据。由于绝大部分监测数据由传感器产生,一个传感器可以监控一个物理量(Key)的值(Value),因此监测数据实际上是以键值对(Key-Value)的形式存在的。由于企业新产品的不断增加,监测数据的模型不断变化,数据的类型也会随着需要进行变化。
目前,绝大多数机械设备制造企业使用关系数据库(如Oracle)存储监测数据,并通过数据分区技术进行存储。通过将监测数据按时间切分,只将最近的数据存放于在线数据库中,其余的历史数据以离线的方式存放在备用存储中。
通过数据库分区技术存在下面的问题:首先,通过数据分区技术,只能将海量监测数据中很少量的部分存放于在线数据库中,通常是最近几个月的数据,联机分析处理(OLAP)应用只能够对这些数据进行处理;其次,传统的关系数据库需要固定的模型来描述数据,因此难以适应监测数据模型多变的特点;再次,传统数据库很难进行横向扩展,对于容量扩充的需求只能通过停机维护和数据迁移来实现,时间和财力成本较高;最后,传统的关系数据库难以满足高并发读写的需求,并且对硬件性能要求较高,当数据量达到百亿级时,对历史数据大规模的查询操作将难以完成,小范围的查询操作也变得缓慢,并发数据写入的性能难以满足需求。
发明内容
本发明的目的是提出一种利用非关系数据库存储海量工业设备监测数据的方法,以避免传统关系数据库在管理海量监测数据时的缺点,有效存储海量的设备监测数据,并能够支持快速数据查询与分析,使得企业能够对海量监测数据进行查询和分析,挖掘监测数据中具有商业价值的信息,最终达到对工业生产的设计、制造、销售、使用与维护等方面提供借鉴的目的。
本发明提出的利用非关系数据库存储海量工业设备监测数据的方法,包括以下步骤:
(1)使多个非结构化数据管理系统组成一个具有分布式结构的非关系数据库集群;
(2)从关系数据库中读取海量工业设备监测数据,并将读取的监测数据以逗号分隔的文本文件形式存储到多台客户机中,具体过程为:
(2-1)使用镜像磁盘阵列克隆方法,将关系数据库中在线磁盘阵列中的海量工业设备监测数据拷贝到关系数据库中离线镜像磁盘阵列中,并使在线磁盘阵列与关系数据库断开,使离线镜像磁盘阵列与关系数据库相连;
(2-2)使多台客户机的客户端与关系数据库相连,客户端按天读取关系数据库离线镜像磁盘阵列中的海量工业设备监测数据;
(2-3)将上述海量工业设备监测数据以逗号分隔的文本文件形式存储到客户机上,文件格式为:“设备编号,监测数据标识,接收时间,监测值”;
(3)建立一个非关系数据库存储模式,具体步骤如下:
(3-1)使客户机的客户端与非关系数据库相连;
(3-2)分别将上述以逗号分隔的文本文件中的监测数据标识作为列族名、设备编号作为行键、接收时间作为列名、监测值作为列值,建立一个非关系数据库的自由表模式;
(3-3)设置非关系数据库为多备份;
(4)将客户机上的上述以逗号分隔的文本文件导入到非关系数据库集群中,导入过程如下:
(4-1)使客户机上的客户端与非关系数据库集群的底层接口相连,并将非关系数据库集群的写入一致性级别设置为最终一致性;
(4-2)客户端从客户机上按天读取上述以逗号分隔的文本文件,并根据步骤(2-3)的文件格式对读取的文件进行解析,得到工业设备监测数据,并将工业设备监测数据存储在客户机的内存中;
(4-3)将客户机内存中的工业设备监测数据写入非关系数据库集群中。
本发明提出的利用非关系数据库存储海量工业设备监测数据的方法,其优点是:
1、本发明方法通过使用非关系数据库(NoSQL),例如开源的Cassandra,解决传统的关系数据库不能解决的海量工程机械设备监测数据的存储和管理的难题。由于工业设备监测数据的数据量非常大,同时企业的数据分析需求要求所有的历史数据必须全部在线,而非关系数据库具有容量大,可扩展性好的特点,因此本方法比传统的方法更加实用;
2、针对监测数据具有模型多变的特点,本发明方法具备了自由表模型具有模式动态可变的特点,如果有新的监测数据类型产生,自由表模型可以新增相应的列族,省去了关系数据库中重新建表进行修改模式、数据导出导入等。通过合理设计基于非关系数据库的存储模型,并对分布式集群进行参数配置与调优,可以有效存储并管理PB级监测数据,并满足制造企业对海量监测数据进行查询和分析的需求;
3、本发明方法中的非关系数据库数据库支持在线扩展,可以在数据库集群正常运行的情况下新增节点,不需要停机维护和数据迁移,节省了时间和人力成本。
附图说明
图1是本发明方法中文件格式与自由表模型的映射关系示意图。
具体实施方式
本发明提出的利用非关系数据库存储海量工业设备监测数据的方法,包括以下步骤:
(1)使多个非结构化数据管理系统组成一个具有分布式结构的非关系数据库集群;
(2)从关系数据库中读取海量工业设备监测数据,并将读取的监测数据以逗号分隔的文本文件形式存储到多台客户机中,具体过程为:
(2-1)使用镜像磁盘阵列克隆方法,将关系数据库中在线磁盘阵列中的海量工业设备监测数据拷贝到关系数据库中离线镜像磁盘阵列中,并使在线磁盘阵列与关系数据库断开,使离线镜像磁盘阵列与关系数据库相连;
(2-2)使多台客户机的客户端与关系数据库相连,客户端按天读取关系数据库离线镜像磁盘阵列中的海量工业设备监测数据;
(2-3)将上述海量工业设备监测数据以逗号分隔的文本文件形式存储到客户机上,文件格式为:“设备编号,监测数据标识,接收时间,监测值”;
(3)建立一个非关系数据库存储模式,具体步骤如下:
(3-1)使客户机的客户端与非关系数据库相连;
(3-2)分别将上述以逗号分隔的文本文件中的监测数据标识作为列族名、设备编号作为行键、接收时间作为列名、监测值作为列值,建立一个非关系数据库的自由表模式;在该模式中,列族的数量可以根据监测数据标识的种类动态地增加或删除,新读取的数据根据接收时间插入为新列。文件格式与自由表模型的映射关系如图1所示。
(3-3)设置非关系数据库为多备份;
(4)将客户机上的上述以逗号分隔的文本文件导入到非关系数据库集群中,导入过程如下:
(4-1)使客户机上的客户端与非关系数据库集群的底层接口相连,并将非关系数据库集群的写入一致性级别设置为最终一致性;
(4-2)客户端从客户机上按天读取上述以逗号分隔的文本文件,并根据步骤(2-3)的文件格式对读取的文件进行解析,得到工业设备监测数据,并将工业设备监测数据存储在客户机的内存中;
(4-3)将客户机内存中的工业设备监测数据写入非关系数据库集群中。

Claims (1)

1.一种利用非关系数据库存储海量工业设备监测数据的方法,其特征在于该方法包括以下步骤:
(1)使多个非结构化数据管理系统组成一个具有分布式结构的非关系数据库集群;
(2)从关系数据库中读取海量工业设备监测数据,并将读取的监测数据以逗号分隔的文本文件形式存储到多台客户机中,具体过程为:
(2-1)使用镜像磁盘阵列克隆方法,将关系数据库中在线磁盘阵列中的海量工业设备监测数据拷贝到关系数据库中离线镜像磁盘阵列中,并使在线磁盘阵列与关系数据库断开,使离线镜像磁盘阵列与关系数据库相连;
(2-2)使多台客户机的客户端与关系数据库相连,客户端按天读取关系数据库离线镜像磁盘阵列中的海量工业设备监测数据;
(2-3)将上述海量工业设备监测数据以逗号分隔的文本文件形式存储到客户机上,文件格式为:“设备编号,监测数据标识,接收时间,监测值”;
(3)建立一个非关系数据库存储模式,具体步骤如下:
(3-1)使客户机的客户端与非关系数据库相连;
(3-2)分别将上述以逗号分隔的文本文件中的监测数据标识作为列族名、设备编号作为行键、接收时间作为列名、监测值作为列值,建立一个非关系数据库的自由表模式;
(3-3)设置非关系数据库为多备份;
(4)将客户机上的上述以逗号分隔的文本文件导入到非关系数据库集群中,导入过程如下:
(4-1)使客户机上的客户端与非关系数据库集群的底层接口相连,并将非关系数据库集群的写入一致性级别设置为最终一致性;
(4-2)客户端从客户机上按天读取上述以逗号分隔的文本文件,并根据步骤(2-3)的文件格式对读取的文件进行解析,得到工业设备监测数据,并将工业设备监测数据存储在客户机的内存中;
(4-3)将客户机内存中的工业设备监测数据写入非关系数据库集群中。
CN201310617021.3A 2013-11-28 2013-11-28 一种利用非关系数据库存储海量工业设备监测数据的方法 Active CN103631912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310617021.3A CN103631912B (zh) 2013-11-28 2013-11-28 一种利用非关系数据库存储海量工业设备监测数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310617021.3A CN103631912B (zh) 2013-11-28 2013-11-28 一种利用非关系数据库存储海量工业设备监测数据的方法

Publications (2)

Publication Number Publication Date
CN103631912A true CN103631912A (zh) 2014-03-12
CN103631912B CN103631912B (zh) 2016-08-03

Family

ID=50212953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310617021.3A Active CN103631912B (zh) 2013-11-28 2013-11-28 一种利用非关系数据库存储海量工业设备监测数据的方法

Country Status (1)

Country Link
CN (1) CN103631912B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095237A (zh) * 2014-04-30 2015-11-25 国际商业机器公司 用于生成非关系数据库的模式的方法和设备
CN105426482A (zh) * 2015-11-20 2016-03-23 华东交通大学 一种图库一体的铁路10kV配电网海量监控信息HBase转存方法
WO2016141590A1 (zh) * 2015-03-12 2016-09-15 华为技术有限公司 时序数据处理方法及装置
WO2016169322A1 (zh) * 2015-04-22 2016-10-27 中兴通讯股份有限公司 数据库的查询方法和装置、计算机存储介质
CN106648446A (zh) * 2015-10-30 2017-05-10 阿里巴巴集团控股有限公司 一种用于时序数据的存储方法、装置及电子设备
CN106708996A (zh) * 2016-12-19 2017-05-24 北京天广汇通科技有限公司 用于对关系数据库进行全文搜索的方法及系统
CN110597057A (zh) * 2019-08-22 2019-12-20 浙江工业大学 在工业应用场景下的数据处理系统
CN111105202A (zh) * 2018-10-25 2020-05-05 中铁十六局集团第五工程有限公司 一种设备管理系统
CN112307012A (zh) * 2019-07-30 2021-02-02 中科云谷科技有限公司 海量工业数据存储和读取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222090A (zh) * 2011-06-02 2011-10-19 清华大学 一种云环境下海量数据资源管理框架
US20120078978A1 (en) * 2010-09-28 2012-03-29 Yiftach Shoolman System, methods, and media for compressing non-relational database objects
CN102737130A (zh) * 2012-06-21 2012-10-17 广州从兴电子开发有限公司 处理hdfs元数据的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078978A1 (en) * 2010-09-28 2012-03-29 Yiftach Shoolman System, methods, and media for compressing non-relational database objects
CN102222090A (zh) * 2011-06-02 2011-10-19 清华大学 一种云环境下海量数据资源管理框架
CN102737130A (zh) * 2012-06-21 2012-10-17 广州从兴电子开发有限公司 处理hdfs元数据的方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NIKOLOV P等: "Aggregate queries in NoSQL cloud data stores", 《VU UNIVERSITY AMSTERDAM》 *
王建民等: "MRO支持技术研究", 《计算机集成制造系统》 *
申德荣等: "支持大数据管理的NoSQL系统研究综述", 《软件学报》 *
陈崇成等: "基于NoSQL的海量空间数据云存储与服务方法", 《地球信息科学学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095237B (zh) * 2014-04-30 2018-07-17 国际商业机器公司 用于生成非关系数据库的模式的方法和设备
US10936556B2 (en) 2014-04-30 2021-03-02 International Business Machines Corporation Generating a schema of a Not-only-Structured-Query-Language database
CN105095237A (zh) * 2014-04-30 2015-11-25 国际商业机器公司 用于生成非关系数据库的模式的方法和设备
US10055429B2 (en) 2014-04-30 2018-08-21 International Business Machines Corporation Generating a schema of a not-only-structured-query-language database
WO2016141590A1 (zh) * 2015-03-12 2016-09-15 华为技术有限公司 时序数据处理方法及装置
WO2016169322A1 (zh) * 2015-04-22 2016-10-27 中兴通讯股份有限公司 数据库的查询方法和装置、计算机存储介质
CN106156197A (zh) * 2015-04-22 2016-11-23 中兴通讯股份有限公司 一种数据库的查询方法和装置
CN106648446A (zh) * 2015-10-30 2017-05-10 阿里巴巴集团控股有限公司 一种用于时序数据的存储方法、装置及电子设备
CN105426482B (zh) * 2015-11-20 2018-08-14 华东交通大学 一种图库一体的铁路10kV配电网海量监控信息HBase转存方法
CN105426482A (zh) * 2015-11-20 2016-03-23 华东交通大学 一种图库一体的铁路10kV配电网海量监控信息HBase转存方法
CN106708996A (zh) * 2016-12-19 2017-05-24 北京天广汇通科技有限公司 用于对关系数据库进行全文搜索的方法及系统
CN106708996B (zh) * 2016-12-19 2020-09-25 北京天广汇通科技有限公司 用于对关系数据库进行全文搜索的方法及系统
CN111105202A (zh) * 2018-10-25 2020-05-05 中铁十六局集团第五工程有限公司 一种设备管理系统
CN112307012A (zh) * 2019-07-30 2021-02-02 中科云谷科技有限公司 海量工业数据存储和读取方法
CN110597057A (zh) * 2019-08-22 2019-12-20 浙江工业大学 在工业应用场景下的数据处理系统

Also Published As

Publication number Publication date
CN103631912B (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN103631912A (zh) 一种利用非关系数据库存储海量工业设备监测数据的方法
US11132384B2 (en) Generating a multi-column index for relational databases by interleaving data bits for selectivity
CN111104394A (zh) 一种能源数据仓库系统构建方法及装置
CN105139281A (zh) 一种电力营销大数据的处理方法及系统
WO2015041714A1 (en) Interest-driven business intelligence systems including event-oriented data
Prasad et al. Smart meter data analytics using OpenTSDB and Hadoop
CN104881424A (zh) 一种基于正则表达式的电力大数据采集、存储及分析方法
CN104205039A (zh) 使用兴趣驱动数据管线进行数据分析的兴趣驱动商业智能系统和方法
Chavan et al. Survey paper on big data
CN101916261A (zh) 一种分布式并行数据库系统的数据分区方法
CN105574667A (zh) 核电设计数据集成方法及系统
CN105405069A (zh) 一种购电经营决策分析与数据处理方法
WO2015041731A1 (en) Interest-driven business intelligence systems including segment data
CN114328688A (zh) 一种针对电力能源大数据的管控平台
Villalobos et al. A three level hierarchical architecture for an efficient storage of industry 4.0 data
CN109669975B (zh) 一种工业大数据处理系统及方法
US10095738B1 (en) Dynamic assignment of logical partitions according to query predicate evaluations
CN106780157B (zh) 基于Ceph的电网多时态模型存储与管理系统及方法
Hongliang et al. Management and instant query of distributed oil and gas production dynamic data
CN108875087B (zh) 一种描述事物空间属性并基于所述描述进行查找的方法
CN111159154A (zh) 一种能源数据仓库系统
Martinviita Time series database in Industrial IoT and its testing tool
CN114691762A (zh) 企业数据智能构建方法
Abdullahi et al. Big data: performance profiling of meteorological and oceanographic data on hive
Liu et al. A versatile event-driven data model in hbase database for multi-source data of power grid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant