CN112486992B

CN112486992B - 一种数据存储方法及系统

Info

Publication number: CN112486992B
Application number: CN202011368613.2A
Authority: CN
Inventors: 陈华锋; 李颖杰; 陈本权; 郑筠; 史纪; 孙涛; 董伟峰
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-11-21
Anticipated expiration: 2040-11-30
Also published as: CN112486992A

Abstract

本发明提供一种数据存储方法及系统，所述方法包括获取电力计费数据；根据电力计费数据和预设数据处理逻辑，为电力计费数据建立索引表，并将电力计费数据存储到按照预设数据大小和预设集群机器数量已经配置好的分布式集群的各节点中；清洗电力计费数据，并将清洗过的电力计费数据生成结构化数据；将结构化数据映射为包括图的点和边的RDF格式并导入到所述图数据库中；分析图数据库，得到用户的风险预测结果；将用户的风险预测结果分别存储到hbase、mysql和nebula数据库中，并建立hbase、mysql和nebula数据库间的数据的外部索引表。通过本发明，解决了现有数据存储系统容易崩溃、数据延迟以及不利于数据挖掘的问题。

Description

一种数据存储方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据存储方法及系统。

背景技术

电力计费数据通常由电力收费系统自动采集用户每月的电费缴纳和用电情况等数据。其中，系统主要是记载普通用户每月的交费、欠费情况，以及用户每个月的详细电费，包括电价类别、附加费用和表计抄见等信息。目前的电力计费系统已经实行联网，用户可以十分方便查询到当前区域的当月用电和费用情况、历史费用情况等。智能化的电子系统给用户带来方便，同时大量的数据也给系统数据的应用管理与存储方式带来了挑战。而且，政府业务与整个社会的稳定、和谐密切相关，许多数据都属于关键业务信息，对业务连续性的要求非常高。另外，大量数据需要长期保存，存储归档需求非常大，对用户数据安全性、风险发现和可视化也有很高的要求。

现有的电力计费数据通常是基于磁盘阵列和磁带库的，即由机房里面的统一储存介质进行集中存储用户的数据，通过某种交换机(例如光纤交换机或者IB交换机等)连接存储阵列和服务器主机等设备，形成一个专用的存储网络。这样的存储数据方法在日益增加的数据量与业务需求下，显得十分局限。备受诟病的数据存储系统容易崩溃、数据延迟等问题困扰着电力相关部门，且诸多电力数据按照传统方式存储利用，不利于电力相关部门通过数据挖掘出相关信息。

发明内容

本发明所要解决的技术问题在于，提供一种数据存储方法及系统，用于解决现有数据存储系统容易崩溃、数据延迟以及不利于数据挖掘的问题。

为解决上述技术问题，本发明实施例提出一种数据存储方法，所述方法包括：

步骤S11、获取电力计费数据；

步骤S12、根据所述电力计费数据和预设数据处理逻辑，为所述电力计费数据建立索引表，并将所述电力计费数据存储到按照预设数据大小和预设集群机器数量已经配置好的分布式集群的各节点中；

步骤S13、清洗所述电力计费数据，并将清洗过的电力计费数据生成结构化数据；

步骤S14、将所有所述结构化数据映射为资源描述框架RDF格式，所述RDF格式包括图的点和边；

步骤S15、创建图数据库，将所述图的点和边批量导入到所述图数据库中；

步骤S16、分析所述图数据库，得到用户的风险预测结果，所述用户的风险预测结果包括用户的风险得分和与所述用户对应的关系数据的风险得分；

步骤S17、将所述用户的风险预测结果分别存储到hbase、mysql和nebula数据库中，并建立所述hbase、mysql和nebula数据库间的数据的外部索引表。

进一步地，在步骤S13中清洗所述电力计费数据具体包括：

利用数据仓库工具hive删除所述电力计费数据中包含空白字段的数据、无效数据和格式错误乱码数据。

进一步地，在所述步骤S13中将清洗过的电力计费数据生成结构化数据包括：

将文本结构的所述清洗过的电力计费数据输入训练好的信息抽取模型，输出结构化三元组信息的标签的位置；

根据所述标签的位置和输入的所述文本结构的所述清洗过的电力计费数据，匹配出包括所述结构化三元组信息的结构化数据。

进一步地，所述信息抽取模型包括bert-CRF模型或者MRC模型。

进一步地，所述步骤S16具体包括：

步骤S21、将与所述索引表对应的所述结构化数据和预设预测用户风险的业务指令输入到已训练好的机器学习模型；

步骤S22、所述机器学习模型输出用户的风险属性，并将所述用户的风险属性分别输入关系图卷积网络GCN链路预测模型和第一全连接层；

步骤S23、将图数据库的图数据输入所述GCN链路预测模型；

步骤S24、所述GCN链路预测模型输出用户与所述用户对应的关系数据之间路径的预测得分，并将所述预测得分输入第一全连接层；

步骤S25、经过所述第一全连接层和预测层对所述用户的风险属性和所述与所述用户对应的关系数据之间路径的预测得分进行运算，得到用户的风险得分以及与所述用户对应的关系数据的风险得分。

进一步地，所述机器学习模型包括随机森林模型、归一化层和第二全连接层，所述GCN链路预测模型包括间隔设置的两个GCN层、两个激活层以及第三全连接层。

本发明实施例提出一种数据存储系统，所述系统包括：

获取单元，用于获取电力计费数据；

索引建立单元，用于根据所述电力计费数据和预设数据处理逻辑，为所述电力计费数据建立索引表，并将所述电力计费数据存储到按照预设数据大小和预设集群机器数量已经配置好的分布式集群的各节点中；

数据处理单元，用于清洗所述电力计费数据，并将清洗过的电力计费数据生成结构化数据；

映射单元，用于将所有所述结构化数据映射为资源描述框架RDF格式，所述RDF格式包括图的点和边；

创建单元，用于创建图数据库，将所述图的点和边批量导入到所述图数据库中；

数据分析单元，用于分析所述图数据库，得到用户的风险预测结果，所述用户的风险预测结果包括用户的风险得分和与所述用户对应的关系数据的风险得分；

存储索引单元，用于将所述用户的风险预测结果分别存储到hbase、mysql和nebula数据库中，并建立所述hbase、mysql和nebula数据库间的数据的外部索引表。

进一步地，所述数据处理单元具体用于：

进一步地，所述数据分析单元具体用于：

将与所述索引表对应的所述结构化数据和预设预测用户风险的业务指令输入到已训练好的机器学习模型；

所述机器学习模型输出用户的风险属性，并将所述用户的风险属性分别输入关系图卷积网络GCN链路预测模型和第一全连接层；

将图数据库的图数据输入所述GCN链路预测模型；

所述GCN链路预测模型输出用户与所述用户对应的关系数据之间路径的预测得分，并将所述预测得分输入第一全连接层；

经过所述第一全连接层和预测层对所述用户的风险属性和所述与所述用户对应的关系数据之间路径的预测得分进行运算，得到用户的风险得分以及与所述用户对应的关系数据的风险得分。

实施本发明的实施例，具有如下有益效果：

通过对采集的电力计费数据进行分布式存储，并且对数据清洗后形成结构化数据，并将所述结构化数据转换并导入图数据库，利用相关模型对图数据库中数据进行挖掘并存储到不同数据库，使得数据存储安全，多点查询速度快且可以可视化数据关系，并挖掘到用户数据的风险；解决了现有电力数据存储系统容易崩溃、数据查询延时以及数据查询不直观、不便于进行数据挖掘的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的数据存储方法的流程图。

图2是本发明另一实施例提供的数据存储系统的架构图。

图3是本发明另一实施例提供的用于预测用户风险模型的结构图。

图4是本发明另一实施例提供的数据存储系统的结构图。

具体实施方式

本专利中，以下结合附图和实施例对该具体实施方式做进一步说明。

如图1所示，本发明一实施例提供了数据存储方法，所述方法包括：

步骤S11、获取电力计费数据。

在本发明实施例中，电力计费系统会在月度、季度或者年度对电力计费数据进行统一整理，本步骤对整理后的电力计费数据进行采集。

步骤S12、根据所述电力计费数据和预设数据处理逻辑，为所述电力计费数据建立索引表，并将所述电力计费数据存储到按照预设数据大小和预设集群机器数量已经配置好的分布式集群的各节点中。

结合图2，已经配置好的分布式集群中已经确定了预设数据大小和集群中机器数量，在集群的上层建立了分布式文件存储系统，在分布式文件存储系统上层设置了包管理器yarn和数据仓库工具hive。

将电力计费数据分别存储到分布式集群的各节点中，有利于数据备份，避免数据存储系统崩溃，也有利于提升数据查询速度并降低数据查询的延迟。

步骤S13、清洗所述电力计费数据，并将清洗过的电力计费数据生成结构化数据。

具体地，在步骤S13中清洗所述电力计费数据具体包括：

具体地，在所述步骤S13中，将清洗过的电力计费数据生成结构化数据包括：

例如在电力计费数据中，实体头：用户名，关系：高峰用电量，值：10，这三者就构成了结构化三元组信息；又例如，实体头：用户名，关系：区域，值：某地点，这三者也构成了结构化三元组信息。

需要说明的是，信息抽取模型包括bert-CRF模型或者MRC模型。

步骤S14、将所有所述结构化数据映射为资源描述框架(Resource DescriptionFrame，RDF)格式，所述RDF格式包括图的点和边。

步骤S15、创建图数据库，将所述图的点和边批量导入到所述图数据库中。

在本实施例中，可以采用Nebula graph作为图数据库，使用nebula自带的SparkWrite工具，在步骤S14中将结构化数据转换为图的点和边，然后在步骤S15中将所述图的点和边批量导入到图数据库中。

需要说明的是，创建图数据库，将图的点和边导入图数据库，有利于数据形成可视化，便于查看各数据之间的关系。

步骤S16、分析所述图数据库，得到用户的风险预测结果，所述用户的风险预测结果包括用户的风险得分和与所述用户对应的关系数据的风险得分。

具体地，所述步骤S16包括：

步骤S21、将与所述索引表对应的所述结构化数据和预设预测用户风险的业务指令输入到已训练好的机器学习模型。

结合图3，所述机器学习模型包括随机森林模型、归一化层和第二全连接层，将所述结构化数据和预设预测用户风险的业务指令输入到已训练好的机器学习模型，所述结构化数据和预设预测用户风险的业务指令分别对应图3中的用户信息和业务指令；经过后续步骤S22输出机器学习模型处理的结果。

步骤S22、所述机器学习模型输出用户的风险属性，并将所述用户的风险属性分别输入关系图卷积网络GCN链路预测模型和第一全连接层。

需要说明的是，用户的风险属性包括用户是否属于风险用户或者欠费用户。

步骤S23、将图数据库的图数据输入所述GCN链路预测模型。

在本实施例中，GCN链路预测模型包括间隔设置的两个GCN层、两个激活层以及第三全连接层，步骤S22中用户的风险属性被输入到所述第三全连接层。

步骤S24、所述GCN链路预测模型输出用户与所述用户对应的关系数据之间路径的预测得分，并将所述预测得分输入第一全连接层。

需要说明的是，例如用户A，每个月高峰期用电量为1000度，用户与用户对应的每个月高峰期用电量为1000度就是两者之间的路径，比如说一般用户用电都在200度左右，或者用户A平时用电仅仅200度，那该路径可能存在风险，例如该用户A被偷电，该用户A家的用电家具存在漏电的风险。

在本实施例中，机器学习模型向第一全连接层输出用户的风险属性，第三全连接层向第一全连接层输出与所述用户对应的关系数据之间路径的预测得分，通过第一全连接层和预测层对用户的风险属性和与所述用户对应的关系数据之间路径的预测得分进行运算，得到了用户的风险得分以及与所述用户对应的关系数据的风险得分。

需要说明的是，在本实施例中，通过多个模型进行分析挖掘处理，得到用户的风险相关信息。

在本实施例中，将用户的风险预测结果分别存储到hbase、mysql和nebula数据库中，用于海量数据随机查询场景的存入hbase，用于非查询业务的数据可存入mysql数据库，用于查询可视化图谱的存入nebula。

如图4所示，本发明一实施例提供了数据存储系统，所述系统包括：

获取单元21，用于获取电力计费数据；

索引建立单元22，用于根据所述电力计费数据和预设数据处理逻辑，为所述电力计费数据建立索引表，并将所述电力计费数据存储到按照预设数据大小和预设集群机器数量已经配置好的分布式集群的各节点中；

数据处理单元23，用于清洗所述电力计费数据，并将清洗过的电力计费数据生成结构化数据；

映射单元24，用于将所有所述结构化数据映射为资源描述框架RDF格式，所述RDF格式包括图的点和边；

创建单元25，用于创建图数据库，将所述图的点和边批量导入到所述图数据库中；

数据分析单元26，用于分析所述图数据库，得到用户的风险预测结果，所述用户的风险预测结果包括用户的风险得分和与所述用户对应的关系数据的风险得分；

存储索引单元27，用于将所述用户的风险预测结果分别存储到hbase、mysql和nebula数据库中，并建立所述hbase、mysql和nebula数据库间的数据的外部索引表。

进一步地，所述数据处理单元23具体用于：

进一步地，所述数据分析单元26具体用于：

将图数据库的图数据输入所述GCN链路预测模型；

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

需说明的是，上述实施例所述系统与上述实施例所述方法对应，因此，上述实施例所述系统未详述部分可以参阅上述实施例所述方法的内容得到，此处不再赘述。

并且，上述实施例所述数据存储系统，如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中；

例如，一种计算机设备，包括：根据上述实施例所述的数据存储系统；或者，存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行根据上述实施例所述的数据存储系统的步骤。当然，所述计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。示例性地，所述计算机程序可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机设备的控制中心，利用各种接口和线路连接整个所述计算机设备的各个部分。所述存储器可用于存储所述计算机程序和/或单元，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或单元，以及调用存储在存储器内的数据，实现所述计算机设备的各种功能。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

又例如，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述所述的数据存储方法。示例性地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。

实施本发明，具有如下有益效果：

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种数据存储方法，其特征在于，所述方法包括：

步骤S11、获取电力计费数据；所述电力计费数据包括实体头、关系、值，所述实体头为用户名，所述关系为高峰用电量，所述值为10，实体头、关系、值构成结构化三元组信息；

步骤S17、将所述用户的风险预测结果分别存储到hbase、mysql和nebula数据库中，并建立所述hbase、mysql和nebula数据库间的数据的外部索引表；

其中，所述步骤S16具体包括：

步骤S23、将图数据库的图数据输入所述GCN链路预测模型；

2.如权利要求1所述方法，其特征在于，在步骤S13中清洗所述电力计费数据具体包括：

3.如权利要求1所述方法，其特征在于，在所述步骤S13中将清洗过的电力计费数据生成结构化数据包括：

4.如权利要求3所述方法，其特征在于，所述信息抽取模型包括bert-CRF模型或者MRC模型。

5.如权利要求1所述方法，其特征在于，所述机器学习模型包括随机森林模型、归一化层和第二全连接层，所述GCN链路预测模型包括间隔设置的两个GCN层、两个激活层以及第三全连接层。

6.一种数据存储系统，其特征在于，所述系统包括：

获取单元，用于获取电力计费数据；所述电力计费数据包括实体头、关系、值，所述实体头为用户名，所述关系为高峰用电量，所述值为10，实体头、关系、值构成结构化三元组信息；

存储索引单元，用于将所述用户的风险预测结果分别存储到hbase、mysql和nebula数据库中，并建立所述hbase、mysql和nebula数据库间的数据的外部索引表；

所述数据分析单元具体用于：

将图数据库的图数据输入所述GCN链路预测模型；

7.如权利要求6所述系统，其特征在于，所述数据处理单元具体用于：

8.如权利要求6所述系统，其特征在于，所述机器学习模型包括随机森林模型、归一化层和第二全连接层，所述GCN链路预测模型包括间隔设置的两个GCN层、两个激活层以及第三全连接层。