CN106528641B - 一种数据存储方法、装置及通信网关机 - Google Patents

一种数据存储方法、装置及通信网关机 Download PDF

Info

Publication number
CN106528641B
CN106528641B CN201610893859.9A CN201610893859A CN106528641B CN 106528641 B CN106528641 B CN 106528641B CN 201610893859 A CN201610893859 A CN 201610893859A CN 106528641 B CN106528641 B CN 106528641B
Authority
CN
China
Prior art keywords
data
data source
base class
class
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610893859.9A
Other languages
English (en)
Other versions
CN106528641A (zh
Inventor
牛津文
慕宗君
李江林
方伟
马国强
袁方方
王广民
李宝潭
郭利军
邵春梅
李瑞山
董朋涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuji Group Co Ltd
XJ Electric Co Ltd
Xuchang XJ Software Technology Co Ltd
Original Assignee
Xuji Group Co Ltd
XJ Electric Co Ltd
Xuchang XJ Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuji Group Co Ltd, XJ Electric Co Ltd, Xuchang XJ Software Technology Co Ltd filed Critical Xuji Group Co Ltd
Priority to CN201610893859.9A priority Critical patent/CN106528641B/zh
Publication of CN106528641A publication Critical patent/CN106528641A/zh
Application granted granted Critical
Publication of CN106528641B publication Critical patent/CN106528641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据存储方法、装置及通信网关机,根据数据的三种类型即结构化数据、半结构化数据和非结构化数据分别创建基类,每种数据源对基类进行继承并创建数据对象,最终通过数据对象与关系数据库的映射关系实现海量数据的分布式存储。

Description

一种数据存储方法、装置及通信网关机
技术领域
本发明属于智能变电站数据通信领域,具体涉及一种数据储存方法、装置及通信网关机。
背景技术
近几年,智能变电站处理的数据体量从TB级别跃升到PB级别,电力数据类型也从单一的结构化数据变为多样的结构化数据、半结构化数据和非结构化数据,因此,智能变电站的电力数据的存储面临着体量巨大、类型繁多的困难。
目前,数据的存储一般采用关系数据库,按照一定的关系规则对相应的数据进行分析、查询等处理,传统的关系数据库只能处理含有固定字段的结构化数据,并不能处理包含主题、关键词、描述等信息的半结构化数据和包含文件属性、文件后缀等信息的非结构化数据。
发明内容
本发明的目的是提供一种数据存储方法、装置及通信网关机,用于解决面向结构化数据存储的关系型数据库不能处理半结构化数据和非结构化数据的问题。
为解决上述技术问题,本发明提出一种数据存储方法,包括以下步骤:
1)根据数据源的类型创建三个基类,分别为结构化数据类、半结构化数据类、非结构化数据类;
2)将接收的数据源通过聚类算法分成结构化数据、半结构化数据和非结构化数据三类;
3)分类后的数据源与所述基类匹配,当数据源与所述基类匹配一致时,创建数据对象,或者通过该数据源所属的基类派生出新的数据类型,并根据新的数据类型创建数据对象;
4)建立所述数据对象与关系数据库的映射关系,将数据源按照该映射关系存储到相应的关系数据库中,实现分类存储。
将所述数据对象切分成粒度均匀的元数据存储到相应的关系数据库。
当数据源与其对应基类的匹配度超过设定的百分值时,且当该数据源包含对应基类不具有的属性时,通过该数据源对应的基类派生出新的数据类型,并根据新的数据类型创建数据对象;
当数据源与其对应基类的匹配度超过设定的百分值时,且当该数据源不存在对应基类不具有的属性时,通过该数据源对应的基类直接创建数据对象。
为解决上述技术问题,本发明还提出一种通信网关机,包括:
基类创建单元:根据数据源的类型创建三个基类,分别为结构化数据类、半结构化数据类、非结构化数据类;
分类单元:将接收的数据源通过聚类算法分成结构化数据、半结构化数据和非结构化数据三类;
匹配单元:分类后的数据源与所述基类匹配,当数据源与所述基类匹配一致时,创建数据对象;或者通过该数据源所属的基类派生出新的数据类型,根据新的数据类型创建数据对象;
映射单元:建立所述数据对象与关系数据库的映射关系,将数据源按照该映射关系存储到相应的关系数据库中,实现分类存储。
还包括用于将所述数据对象切分成粒度均匀的元数据存储到相应关系数据库的单元。
当数据源与其对应基类的匹配度超过设定的百分值时,且当该数据源包含对应基类不具有的属性时,通过该数据源对应的基类派生出新的数据类型,并根据新的数据类型创建数据对象;
当数据源与其对应基类的匹配度超过设定的百分值时,且当该数据源不存在对应基类不具有的属性时,通过该数据源对应的基类直接创建数据对象。
为解决上述技术问题,本发明还提出一种数据存储装置,包括结构化数据库群、半结构化数据库群和非结构化数据库群,根据通信网关机建立的映射关系存储相应的数据。
所述各个数据库群都至少包括两个数据库。
本发明的有益效果是:本发明提出一种数据存储方法、装置及通信网关机,该方法根据数据的三种类型即结构化数据、半结构化数据和非结构化数据分别创建基类,每种数据源对基类进行继承并创建数据对象,最终通过数据对象与关系数据库的映射关系实现海量数据的分布式存储。
附图说明
图1是本发明一种通信网关机的数据存储架构图;
图2是本发明一种数据存储方法流程图;
图3是数据源应用聚类算法进行分类的流程图;
图4是数据源分布式存储示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的说明。
本发明的一种通信网关机的实施例,包括基类创建单元、分类单元、匹配单元和映射单元,还包括用于将映射单元中数据对象切分成粒度均匀的元数据存储到关系数据库的单元,具体地:
基类创建单元:根据电力系统中数据源的类型,利用面向对象的思想创建三个基类,分别为结构化数据类、半结构化数据类、非结构化数据类,每个基类根据自身的特点包含特定属性及方法。其中,结构化数据类包含固定字段、关系数据库操作方法等信息,半结构化数据类包含主题、关键词、描述等信息,非结构化数据类中包含文件属性、文件后缀等信息。
分类单元:将接收的数据源通过聚类算法分成结构化数据、半结构化数据和非结构化数据三类,具体方法如下:
首先,将数据源的属性与非结构化数据类中的属性进行匹配,匹配的内容包括文件后缀名、文件属性等信息,如果非结构化数据类中后缀名组中包含数据源的文件后缀名且文件属性一致则匹配成功;
其次,当数据源与非结构化数据类没有匹配成功时,再将该数据源的属性与半结构化数据类进行属性匹配,如果数据源的主题、关键字、或描述信息与半结构化数据类的相关属性有一组匹配成功,则此数据属于半结构化数据类型;
最后,如果数据源与以上两种数据类都匹配失败,则将该数据源的属性与结构化数据类的字段属性进行匹配,如果匹配成功则此数据属于结构化数据类型;当以上三种数据类型均未匹配成功时,则认为该数据源没有存储的价值,将此数据源删除。
匹配单元:分类后的数据源与所述基类匹配,当数据源与所述基类匹配一致时,创建数据对象;或者通过该数据源所属的基类派生出新的数据类型,根据新的数据类型创建数据对象。
具体的,当数据源与其对应基类的匹配度超过设定的百分值时,且当该数据源包含对应基类不具有的属性时,即数据源中的一小部分属性基类中没有涵盖到,需要通过该数据源对应的基类派生出新的数据类型,并根据新的数据类型创建数据对象,创建成功后便实例化数据对象存储到内存中。
当数据源与其对应基类的匹配度超过设定的百分值时,且当该数据源不存在对应基类不具有的属性时,通过该数据源对应的基类直接创建数据对象。为了使数据源是否继承或创建对象有一个清晰地判断,这里设定一个百分比,如果与基类60%的属性匹配成功则进行继承基类操作。
映射单元:以映射表的形式建立上述数据对象与关系数据库的映射关系,将数据源按照该射关系存储于数据存储装置,映射表的内容包括数据类型、数据属性、数据库群ID、数据库名称、数据库地址、表名称等信息。
上述数据存储装置是以关系数据库的形式存储的,包括三类数据库群,分别为结构化数据库群、半结构化数据库群和非结构化数据库群,不同的数据类型存放在不同的数据库群中。
为了减轻单个数据库的存储压力,需要在数据存储装置的每个数据库群中至少设置两个数据库,在数据网关机中设置用于将映射单元中数据对象切分成粒度均匀的元数据存储到关系数据库的单元,达到数据库负载均衡的目的。
本发明的一种数据存储方法的实施例,包括以下步骤:
1)根据数据源的类型创建三个基类,分别为结构化数据类、半结构化数据类、非结构化数据类;
2)将接收的数据源通过聚类算法分成结构化数据、半结构化数据和非结构化数据三类;
3)分类后的数据源与所述基类匹配,当数据源与所述基类匹配一致时,创建数据对象,或者通过该数据源所属的基类派生出新的数据类型,并根据新的数据类型创建数据对象;
4)建立所述数据对象与关系数据库的映射关系,将数据源存储到关系数据库。
本发明的一种数据存储装置的实施例:
包括结构化数据库群、半结构化数据库群和非结构化数据库群,根据通信网关机建立的映射关系存储相应的数据。
本发明的数据存储方法及装置已经在一种通信网关机的实施例中进行了详细的介绍,这里不再对数据存储方法及装置的实施例进行详细描述。

Claims (6)

1.一种数据存储方法,其特征在于,包括以下步骤:
1)根据数据源的类型创建三个基类,分别为结构化数据类、半结构化数据类、非结构化数据类;
2)将接收的数据源通过聚类算法分成结构化数据、半结构化数据和非结构化数据三类;
3)分类后的数据源与所述基类匹配,当数据源与所述基类匹配一致时,创建数据对象,或者通过该数据源所属的基类派生出新的数据类型,并根据新的数据类型创建数据对象;
当数据源与其对应基类的匹配度超过设定的百分值时,且当该数据源包含对应基类不具有的属性时,通过该数据源对应的基类派生出新的数据类型,并根据新的数据类型创建数据对象;
当数据源与其对应基类的匹配度超过设定的百分值时,且当该数据源不存在对应基类不具有的属性时,通过该数据源对应的基类直接创建数据对象;
4)建立所述数据对象与关系数据库的映射关系,将数据源按照该映射关系存储到相应的关系数据库中,实现分类存储。
2.根据权利要求1所述的数据存储方法,其特征在于,将所述数据对象切分成粒度均匀的元数据存储到相应的关系数据库。
3.一种通信网关机,其特征在于,包括:
基类创建单元:根据数据源的类型创建三个基类,分别为结构化数据类、半结构化数据类、非结构化数据类;
分类单元:将接收的数据源通过聚类算法分成结构化数据、半结构化数据和非结构化数据三类;
匹配单元:分类后的数据源与所述基类匹配,当数据源与所述基类匹配一致时,创建数据对象;或者通过该数据源所属的基类派生出新的数据类型,根据新的数据类型创建数据对象;
当数据源与其对应基类的匹配度超过设定的百分值时,且当该数据源包含对应基类不具有的属性时,通过该数据源对应的基类派生出新的数据类型,并根据新的数据类型创建数据对象;
当数据源与其对应基类的匹配度超过设定的百分值时,且当该数据源不存在对应基类不具有的属性时,通过该数据源对应的基类直接创建数据对象;
映射单元:建立所述数据对象与关系数据库的映射关系,将数据源按照该映射关系存储到相应的关系数据库中,实现分类存储。
4.根据权利要求3所述的通信网关机,其特征在于,还包括用于将所述数据对象切分成粒度均匀的元数据存储到相应关系数据库的单元。
5.一种数据存储装置,其特征在于,包括结构化数据库群、半结构化数据库群和非结构化数据库群,根据权利要求3所述的通信网关机建立的映射关系存储相应的数据。
6.根据权利要求5所述的数据存储装置,其特征在于,所述各个数据库群都至少包括两个数据库。
CN201610893859.9A 2016-10-13 2016-10-13 一种数据存储方法、装置及通信网关机 Active CN106528641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610893859.9A CN106528641B (zh) 2016-10-13 2016-10-13 一种数据存储方法、装置及通信网关机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610893859.9A CN106528641B (zh) 2016-10-13 2016-10-13 一种数据存储方法、装置及通信网关机

Publications (2)

Publication Number Publication Date
CN106528641A CN106528641A (zh) 2017-03-22
CN106528641B true CN106528641B (zh) 2020-01-10

Family

ID=58331559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610893859.9A Active CN106528641B (zh) 2016-10-13 2016-10-13 一种数据存储方法、装置及通信网关机

Country Status (1)

Country Link
CN (1) CN106528641B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189611A (zh) * 2018-08-23 2019-01-11 四川精容数安科技有限公司 一种数据备份和恢复的方法、装置及系统
CN109634567B (zh) * 2018-12-07 2022-02-22 武汉瓯越网视有限公司 一种信息创建方法、装置、终端及存储介质
CN111177506A (zh) * 2019-12-31 2020-05-19 广东科学技术职业学院 一种基于大数据的分类存储方法及系统
CN111177156B (zh) * 2019-12-31 2023-10-03 广东科学技术职业学院 一种大数据存储方法及系统
CN111241351A (zh) * 2020-01-08 2020-06-05 第四范式(北京)技术有限公司 数据处理方法、装置及系统
CN114528337B (zh) * 2022-01-12 2024-03-15 南湖实验室 面向多源异构数据源的接口系统、通用接口及其实现方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440288A (zh) * 2013-08-16 2013-12-11 曙光信息产业股份有限公司 一种大数据存储方法及装置
CN103440282A (zh) * 2013-08-13 2013-12-11 西安航天动力试验技术研究所 一种试验数据存储系统及方法
CN104111998A (zh) * 2014-07-09 2014-10-22 江西理工大学 一种企业异构数据分类编码集成交换与管理的方法及装置
CN104462362A (zh) * 2014-12-08 2015-03-25 曙光信息产业(北京)有限公司 一种数据存储、查询、加载方法及装置
CN105550375A (zh) * 2016-02-01 2016-05-04 北京天广汇通科技有限公司 一种异构数据的整合方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355136B2 (en) * 2013-05-06 2016-05-31 International Business Machines Corporation Automating generation of messages in accordance with a standard

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440282A (zh) * 2013-08-13 2013-12-11 西安航天动力试验技术研究所 一种试验数据存储系统及方法
CN103440288A (zh) * 2013-08-16 2013-12-11 曙光信息产业股份有限公司 一种大数据存储方法及装置
CN104111998A (zh) * 2014-07-09 2014-10-22 江西理工大学 一种企业异构数据分类编码集成交换与管理的方法及装置
CN104462362A (zh) * 2014-12-08 2015-03-25 曙光信息产业(北京)有限公司 一种数据存储、查询、加载方法及装置
CN105550375A (zh) * 2016-02-01 2016-05-04 北京天广汇通科技有限公司 一种异构数据的整合方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于异构数据资源整合的方法和系统实现";徐立新;《计算机技术与发展》;20141231;第24卷(第12期);172-175、179 *

Also Published As

Publication number Publication date
CN106528641A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN106528641B (zh) 一种数据存储方法、装置及通信网关机
CN105138592B (zh) 一种基于分布式架构的日志数据存储和检索方法
CN102648468B (zh) 表检索装置、表检索方法以及表检索系统
WO2019024496A1 (zh) 企业推荐方法及应用服务器
CN106407303A (zh) 数据存储、查询方法及装置
CN105354251B (zh) 电力系统中基于Hadoop的电力云数据管理索引方法
CN109299157B (zh) 一种分布式大单表的数据导出方法及装置
CN102663007B (zh) 一种支持敏捷开发和横向扩展的数据存储与查询方法
CN108255915B (zh) 一种文件管理方法、装置及机器可读存储介质
CN108509437A (zh) 一种ElasticSearch查询加速方法
CN106708996A (zh) 用于对关系数据库进行全文搜索的方法及系统
US20110153582A1 (en) Handling of classification data by a search engine
US20190362016A1 (en) Frequent pattern analysis for distributed systems
CN102999637B (zh) 根据文件特征码为文件自动添加文件标签的方法及系统
CN103823846A (zh) 一种基于图论的大数据存储及查询方法
CN101789023A (zh) 一种基于Web的食材信息发布管理系统及其发布管理方法
CN103853771B (zh) 一种搜索结果的推送方法及系统
CN106980679A (zh) 一种信息系统国产数据库迁移改造方法及装置
CN110134698A (zh) 数据管理方法及相关产品
CN113377817A (zh) 数据处理方法、系统、设备及存储介质
CN110674383B (zh) 舆情查询方法、装置及设备
CN104008191B (zh) 一种数据查询方法
CN117520112A (zh) 计算任务的提效分析处理方法、装置、设备和存储介质
CN115237924A (zh) 数据处理方法、系统、设备、介质和程序产品
CN103748578A (zh) 数据分布的方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant