CN116257487A - 基于MongoDB索引的用电信息非结构化数据存储方法 - Google Patents

基于MongoDB索引的用电信息非结构化数据存储方法 Download PDF

Info

Publication number
CN116257487A
CN116257487A CN202211095716.5A CN202211095716A CN116257487A CN 116257487 A CN116257487 A CN 116257487A CN 202211095716 A CN202211095716 A CN 202211095716A CN 116257487 A CN116257487 A CN 116257487A
Authority
CN
China
Prior art keywords
data
file
mongodb
storage
electricity consumption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211095716.5A
Other languages
English (en)
Inventor
丁一
滕飞
张磐
庞超
霍现旭
杜明
杨挺
尚学军
陈沛
焦秋良
孙峤
吴磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202211095716.5A priority Critical patent/CN116257487A/zh
Publication of CN116257487A publication Critical patent/CN116257487A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于MongoDB索引的用电信息非结构化数据存储方法,包括以下步骤:步骤1、对用电信息采集系统非结构化用电信息数据和客户数据进行采集;步骤2、搭建用电信息采集系统非结构化数据存储平台;步骤3、为每个用户建立一个专有的用户文件;并将用户文件中所有元数据信息都存储在MongoDB存储系统中;步骤4、基于步骤2所构建的用电信息采集系统非结构化数据存储平台,实现HDFS架构与MongoDB存储系统间的非结构化数据的存储和读取。本发明能够实现数据的快速存储和精确提取。

Description

基于MongoDB索引的用电信息非结构化数据存储方法
技术领域
本发明属于电力系统用电信息采集系统的数据存储技术领域,涉及一种用电信息非结构化数据存储方法,尤其是一种基于MongoDB索引的用电信息非结构化数据存储方法。
背景技术
随着电网智能化程度的增加,以及用电信息采集系统用户侧双向互动化业务的开展,采集终端采集的数据也在迅速增长,并且采集到的数据不仅仅局限于用电度数、电价信息、用户缴费信息、客户资料等传统的用电信息数据和客户数据,还包括实时用电信息、异常故障报警信息、设备监控视频等;在欧、美等智能电网发达的地区,还包括地理位置信息、天气交通数据、电动汽车数据等,其数据将趋向复杂、实时性、互动性的方向发展。但是由于电力用户的用电信息数据和客户数据具有格式多样、数据分散、海量、增速快等特征,当前实际投入营运的国-网-省-市-县等用电信息采集系统平台,一般仅仅对涉及电力营销核心业务的电力用户计费计量的数据进行在线采集、分析和应用,而对客户的文本、图像、视频和网页等非结构化数据信息,由于存储、检索、运维成本等相关方面不够完善,仅对部分重要客户的非结构化数据进行采集和整理。然而构建供用电双方的信息流动平台,必须对这些非结构化数据进行存储技术研究,以此为互动化功能的应用开发提供底层支撑。而如果仅以当前用电信息采集系统中所含有的电力用户计量计费的结构化数据作为分析的源数据,很难对用户用能趋势和特性的准确预测,无法满足分布式电源、微电网和用户需求响应等新型业务需求。
因此,如何能够对非结构化用电信息数据和客户数据进行有效地特征分析,正确地区分这些非结构化数据各自的数据形式,实现高效的分类存储和准确提取,为用户特征因素的深入分析提供有效支撑,是本领域技术人员亟待解决的技术难题。
经检索,未发现与本发明相同或相似的现有技术的专利文献。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于MongoDB索引的用电信息非结构化数据存储方法,通过对用电信息采集系统非结构化数据特征分析进行非结构化用电信息数据和客户数据的存储,进而实现数据的快速存储和精确提取。
本发明解决其现实问题是采取以下技术方案实现的:
一种基于MongoDB索引的用电信息非结构化数据存储方法,包括以下步骤:
步骤1、对用电信息采集系统非结构化用电信息数据和客户数据进行采集;
步骤2、基于步骤1采集的非结构化用电信息数据和客户数据,在Hadoop平台上搭建HDFS架构和MongoDB架构的存储系统,进而搭建用电信息采集系统非结构化数据存储平台;
步骤3、在步骤2所建立的用电信息采集系统非结构化数据存储平台的HDFS架构中,为每个用户建立一个专有的用户文件;并将用户文件中所有元数据信息都存储在MongoDB存储系统中;
步骤4、基于步骤2所构建的用电信息采集系统非结构化数据存储平台,实现HDFS架构与MongoDB存储系统间的非结构化数据的存储和读取。
而且,所述步骤1的具体方法为:
采集A、B、C、D、E五类电力用户的用电度数、电价信息、电能质量等传统的用电信息数据;以及客户信息、客户需求响应、预约记录、天气交通环境、国家政策等与用电客户密切相关的客户数据,得到非结构化客户数据形式;
其中,A、B类客户均为专用变压器用户;C、D、E类客户的非结构化客户数据在数据总量和非结构化数据形式上均有所减少;E类客户的基本信息是家庭成员信息,而其余四类则偏向于企业信息;E类客户的智能家电控制记录、防入侵与防盗记录、客户微博,是其他四类客户所不具有的非结构化数据。
所述步骤2的用电信息采集系统非结构化数据存储平台包括:
基于Hadoop平台所搭建的HDFS架构和MongoDB存储系统,用于通过MongoDB索引HDFS实现非结构化用电信息数据和客户数据的存储;
所述MongoDB存储系统是一个非关系型数据库的存储架构,在所述HDFS架构基础上,引入所述MongoDB存储系统以优化HDFS架构存储,提供查询检索方案,满足非结构化数据的元数据信息存储需求;
所述HDFS架构是一个主/从式架构的分布式文件系统,其中,HDFS集群由单一NameNode和一定数量DataNode构成;一个HDFS集群通过一个单独的NameNode去管理文件系统命名空间和相关的元数据信息。
而且,所述步骤3的具体步骤包括:
(1)非结构化数据的存储以用户为单位,在HDFS架构中为每个用户建立一个专有的用户文件userID.file,在文件夹中存放该用户所有的用电信息采集系统采集的非结构化数据,用户文件名与用户ID相对应;
(2)将用户文件中所有文本、图像和视频等数据的详细元数据信息都存储在MongoDB存储系统中,MongoDB存储系统中的数据结构记录了每一个用户的所有数据在其对应用户文件中的偏移值(offset)和大小(length),具体定义为userID.meta。
而且,所述步骤4的具体步骤包括:
(1)当需要往HDFS某用户文件夹添加一个用电信息文件时,应用服务器获取该用户的元数据信息,新的用电信息文件元数据信息连同该文件的偏移值和大小等信息一起作为一条记录,写入MongoDB数据结构中;之后应用服务器获取HDFS系统上该用户文件的输出流,将新添加的文本文件以追加的方式写入该用户用电信息文本文件数据块中,实现对非结构化数据的存储;
(2)当需要从HDFS中读取用电信息文本文件时,先向MongoDB服务器发送读文件请求,获取该文本文件的相关元数据信息,依据所读文件的偏移值和文件大小,获取HDFS中用户文本文件的输入流,实现了对非结构化数据的读取。
本发明的优点和有益效果:
1、本发明提出一种基于MongoDB索引的用电信息非结构化数据存储方法,在原有HDFS架构基础上,引入MongoDB进行相应的改进,这种非关系型数据库的存储架构具有高可靠性、高并发、高效存储等功能特性,相比于关系型数据库其访问速度更加优越,同时提供了丰富的查询检索方案,能够很好的满足非结构化数据的元数据信息存储需求。
2、本发明采用MongoDB索引HDFS的用电信息采集系统非结构化数据存储方法既能发挥MongoDB强大的数据查询检索功能,进行元数据的存储,避免采用HDFS在存储非结构化小文件的时候,由于NameNode的频繁交互,造成存储效率不高,同时又能发挥HDFS在存储大容量数据时的强大优势,二者相互结合,实现用电信息非结构化数据的快速存储与准确读写。
3、本发明的用电信息采集系统非结构化数据存储的控制流和数据流是相互分离的,一方面能够降低MongoDB元数据服务的负担,增加其处理能力,另一方面将数据读写时的负担分配到各存储节点,提高系统的整体性能。
附图说明
图1是本发明的用电信息采集系统非结构化数据存储平台示意图;
图2是本发明的HDFS存储架构图;
图3是本发明的非结构化数据存储平台中MongoDB架构图;
图4是本发明的非结构化数据存储平台中HDFS架构图;
图5是本发明的用户文件与元数据文件映射关系图;
图6是本发明的写文件时序图;
图7是本发明的读文件时序图。
具体实施方式
以下结合附图对本发明实施例作进一步详述:
一种基于MongoDB索引的用电信息非结构化数据存储方法,包括以下步骤:
步骤1、对用电信息采集系统非结构化用电信息数据和客户数据进行采集;
所述步骤1的具体方法为:
采集A、B、C、D、E五类电力用户的用电度数、电价信息、电能质量等传统的用电信息数据;以及客户信息、客户需求响应、预约记录、天气交通环境、国家政策等与用电客户密切相关的客户数据,得到非结构化客户数据形式。
其中A、B类客户均为专用变压器用户;C、D、E类客户的非结构化客户数据在数据总量和非结构化数据形式上均有所减少;E类客户的基本信息是家庭成员信息,而其余四类则偏向于企业信息;E类客户的智能家电控制记录、防入侵与防盗记录、客户微博,是其他四类客户所不具有的非结构化数据。
步骤2、基于步骤1采集的非结构化用电信息数据和客户数据,在Hadoop平台上搭建HDFS架构和MongoDB架构的存储系统,进而搭建用电信息采集系统非结构化数据存储平台;
如图1至图4所示,所述用电信息采集系统非结构化数据存储平台包括
基于Hadoop平台所搭建的HDFS架构和MongoDB存储系统,用于通过MongoDB索引HDFS实现非结构化用电信息数据和客户数据的存储;
所述MongoDB存储系统是一个非关系型数据库的存储架构,在所述HDFS架构基础上,引入所述MongoDB存储系统以优化HDFS架构存储,提供查询检索方案,满足非结构化数据的元数据信息存储需求,MongoDB架构具体如图3所示;
所述HDFS架构是一个主/从式架构的分布式文件系统,其中,HDFS集群由单一NameNode和一定数量DataNode构成,HDFS架构具体如图4所示。一个HDFS集群通过一个单独的NameNode去管理文件系统命名空间和相关的元数据信息。
步骤3、在步骤2所建立的用电信息采集系统非结构化数据存储平台的HDFS架构中,为每个用户建立一个专有的用户文件;并将用户文件中所有元数据信息都存储在MongoDB存储系统中。用户文件与元数据文件映射关系如图5所示。
所述步骤3的具体步骤包括:
(1)非结构化数据的存储以用户为单位,在HDFS架构中为每个用户建立一个专有的用户文件userID.file,在文件夹中存放该用户所有的用电信息采集系统采集的非结构化数据,用户文件名与用户ID相对应;
(2)将用户文件中所有文本、图像和视频等数据的详细元数据信息都存储在MongoDB存储系统中,MongoDB存储系统中的数据结构记录了每一个用户的所有数据在其对应用户文件中的偏移值(offset)和大小(length),具体定义为userID.meta。
步骤4、基于步骤2所构建的用电信息采集系统非结构化数据存储平台,实现HDFS架构与MongoDB存储系统间的非结构化数据的存储和读取。
所述步骤4的具体步骤包括:
(1)当需要往HDFS某用户文件夹添加一个用电信息文件时,应用服务器获取该用户的元数据信息,新的用电信息文件元数据信息连同该文件的偏移值和大小等信息一起作为一条记录,写入MongoDB数据结构中。之后应用服务器获取HDFS系统上该用户文件的输出流,将新添加的文本文件以追加的方式写入该用户用电信息文本文件数据块中,实现了对非结构化数据的存储。
(2)当需要从HDFS中读取用电信息文本文件时,先向MongoDB服务器发送读文件请求,获取该文本文件的相关元数据信息,依据所读文件的偏移值和文件大小,获取HDFS中用户文本文件的输入流,实现了对非结构化数据的读取。
在本实施例中,以用户用电信息中的文本数据为例,当需要在HDFS的某用户文件夹添加一个用电信息文本文件时,应用服务器获取该用户的元数据信息,获知待存文件的大小,作为新添加文件的偏移值。
新的用电信息文件元数据信息,连同该文件的偏移值和大小等信息一起作为一条记录写入MongoDB数据结构中。之后应用服务器获取HDFS系统上该用户文件的输出流,将新添加的文件以追加的方式写入该用户用电信息文本文件数据块中,实现了对非结构化数据的存储。写文件的时序图如6所示。具体实施操作如下:
1)操作终端向MongoDB元数据服务器发起用电信息文本数据写请求;
2)MongoDB元数据服务器根据其管理的存储节点的工作和使用情况,在HDFS存储节点上创建一些新的数据块。
3)HDFS存储节点服务器中用电信息文本数据块创建成功,将创建的结果返回给MongoDB元数据服务器;
4)MongoDB元数据服务器一方面备份和同步此文本文件元数据信息,另一方面将相关的存储节点信息返回给操作终端;
5)操作终端根据得到的HDFS文本文件存储节点信息,向对应HDFS文本文件存储节点发出数据写请求,并向HDFS存储节点发送数据;
6)HDFS存储节点接收数据同时存储到相应块中,并且也向其他存储节点发送备份,保证用户存储的用电信息文件的安全性;
7)当本地写入和备份均成功后,HDFS存储节点将成功信息返回给操作终端;
8)操作终端收到成功信号后,即完成文本文件的存储。
当需要从HDFS中读取用电信息文本文件时,先向MongoDB服务器发送读文件请求,获取该文本文件的相关元数据信息,依据所读文件的偏移值和文件大小,获取HDFS中用户文本文件的输入流,从而读出文本文件,其时序图如7所示。
需要强调的是,本发明所述实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (5)

1.一种基于MongoDB索引的用电信息非结构化数据存储方法,其特征在于:包括以下步骤:
步骤1、对用电信息采集系统非结构化用电信息数据和客户数据进行采集;
步骤2、基于步骤1采集的非结构化用电信息数据和客户数据,在Hadoop平台上搭建HDFS架构和MongoDB架构的存储系统,进而搭建用电信息采集系统非结构化数据存储平台;
步骤3、在步骤2所建立的用电信息采集系统非结构化数据存储平台的HDFS架构中,为每个用户建立一个专有的用户文件;并将用户文件中所有元数据信息都存储在MongoDB存储系统中;
步骤4、基于步骤2所构建的用电信息采集系统非结构化数据存储平台,实现HDFS架构与MongoDB存储系统间的非结构化数据的存储和读取。
2.根据权利要求1所述的一种基于MongoDB索引的用电信息非结构化数据存储方法,其特征在于:所述步骤1的具体方法为:
采集A、B、C、D、E五类电力用户的用电度数、电价信息、电能质量等传统的用电信息数据;以及客户信息、客户需求响应、预约记录、天气交通环境、国家政策等与用电客户密切相关的客户数据,得到非结构化客户数据形式;
其中,A、B类客户均为专用变压器用户;C、D、E类客户的非结构化客户数据在数据总量和非结构化数据形式上均有所减少;E类客户的基本信息是家庭成员信息,而其余四类则偏向于企业信息;E类客户的智能家电控制记录、防入侵与防盗记录、客户微博,是其他四类客户所不具有的非结构化数据。
3.根据权利要求1所述的一种基于MongoDB索引的用电信息非结构化数据存储方法,其特征在于:所述步骤2的用电信息采集系统非结构化数据存储平台包括:
基于Hadoop平台所搭建的HDFS架构和MongoDB存储系统,用于通过MongoDB索引HDFS实现非结构化用电信息数据和客户数据的存储;
所述MongoDB存储系统是一个非关系型数据库的存储架构,在所述HDFS架构基础上,引入所述MongoDB存储系统以优化HDFS架构存储,提供查询检索方案,满足非结构化数据的元数据信息存储需求;
所述HDFS架构是一个主/从式架构的分布式文件系统,其中,HDFS集群由单一NameNode和一定数量DataNode构成;一个HDFS集群通过一个单独的NameNode去管理文件系统命名空间和相关的元数据信息。
4.根据权利要求1所述的一种基于MongoDB索引的用电信息非结构化数据存储方法,其特征在于:所述步骤3的具体步骤包括:
(1)非结构化数据的存储以用户为单位,在HDFS架构中为每个用户建立一个专有的用户文件userID.file,在文件夹中存放该用户所有的用电信息采集系统采集的非结构化数据,用户文件名与用户ID相对应;
(2)将用户文件中所有文本、图像和视频等数据的详细元数据信息都存储在MongoDB存储系统中,MongoDB存储系统中的数据结构记录了每一个用户的所有数据在其对应用户文件中的偏移值(offset)和大小(length),具体定义为userID.meta。
5.根据权利要求1所述的一种基于MongoDB索引的用电信息非结构化数据存储方法,其特征在于:所述步骤4的具体步骤包括:
(1)当需要往HDFS某用户文件夹添加一个用电信息文件时,应用服务器获取该用户的元数据信息,新的用电信息文件元数据信息连同该文件的偏移值和大小等信息一起作为一条记录,写入MongoDB数据结构中;之后应用服务器获取HDFS系统上该用户文件的输出流,将新添加的文本文件以追加的方式写入该用户用电信息文本文件数据块中,实现对非结构化数据的存储;
(2)当需要从HDFS中读取用电信息文本文件时,先向MongoDB服务器发送读文件请求,获取该文本文件的相关元数据信息,依据所读文件的偏移值和文件大小,获取HDFS中用户文本文件的输入流,实现了对非结构化数据的读取。
CN202211095716.5A 2022-09-08 2022-09-08 基于MongoDB索引的用电信息非结构化数据存储方法 Pending CN116257487A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211095716.5A CN116257487A (zh) 2022-09-08 2022-09-08 基于MongoDB索引的用电信息非结构化数据存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211095716.5A CN116257487A (zh) 2022-09-08 2022-09-08 基于MongoDB索引的用电信息非结构化数据存储方法

Publications (1)

Publication Number Publication Date
CN116257487A true CN116257487A (zh) 2023-06-13

Family

ID=86683212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211095716.5A Pending CN116257487A (zh) 2022-09-08 2022-09-08 基于MongoDB索引的用电信息非结构化数据存储方法

Country Status (1)

Country Link
CN (1) CN116257487A (zh)

Similar Documents

Publication Publication Date Title
WO2022133981A1 (zh) 数据处理方法、平台、计算机可读存储介质及电子设备
CN102769781B (zh) 推荐电视节目的方法及装置
CN102713965B (zh) 数据源的可缩放主题聚集
CN103020281B (zh) 一种基于空间数据数值索引的数据存储与检索方法
CN104317800A (zh) 一种海量智能用电数据混合存储系统及方法
US11625412B2 (en) Storing data items and identifying stored data items
CN102750326A (zh) 一种基于精简策略的集群系统的日志管理优化方法
CN110727406B (zh) 一种数据存储调度方法及装置
CN104239377A (zh) 跨平台的数据检索方法及装置
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
US11868445B2 (en) Systems and methods for federated searches of assets in disparate dam repositories
CN104462096A (zh) 舆情监测分析方法和装置
CN107391769B (zh) 一种索引查询方法及装置
CN110704450B (zh) 一种实现数据处理的方法、装置、计算机存储介质及终端
CN109947730A (zh) 元数据恢复方法、装置、分布式文件系统及可读存储介质
CN108763323A (zh) 基于资源集和大数据技术的气象格点文件应用方法
CN102855391A (zh) 一种ems多专业数据全息存储及全景事故反演方法
CN109993576A (zh) 一种服务质量感知、数据采集处理与分析的方法和系统
CN112540987A (zh) 一种基于数据集市的配用电大数据管理系统
WO2018144536A1 (en) Satellite and central asset registry systems and methods and rights management systems
CN103778231A (zh) 一种数据银行管理操作记录信息的方法及系统
CN116257487A (zh) 基于MongoDB索引的用电信息非结构化数据存储方法
Buroni et al. On-board-unit data: A big data platform for scalable storage and processing
Lu et al. Research on Cassandra data compaction strategies for time-series data
CN101923579B (zh) 一种基于情境流的文件管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination