CN106528608A

CN106528608A - 一种云架构下的电网gis数据冷热存储方法和系统

Info

Publication number: CN106528608A
Application number: CN201610855793.4A
Authority: CN
Inventors: 王宪; 王景朝; 费香泽
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Anhui Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Anhui Electric Power Co Ltd
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2017-03-22
Anticipated expiration: 2036-09-27
Also published as: CN106528608B

Abstract

本发明通过将待存储数据进行冷热度的预判后，针对判断结果对待存储数据进行不同存储区域的存放，并通过构建Map/Reduce函数，进行倒排索引的构建，在满足用户需求的条件下，提高数据的调用和存储效率，并为后期查找提供快速定位手段。所述方法包括：首先对多个待存储数据进行冷热度判断，随后将进行冷热度判断后的多个待测数据中每个待存储数据的主题关键词将待存储数据进行类别区分，并将待存储数据进行基于冷热度的分布式存储，最后对已进行分布式存储的待存储数据利用映射Map/规约Reduce模型实现倒排索引的构建。

Description

一种云架构下的电网GIS数据冷热存储方法和系统

技术领域

本发明涉及云架构存储领域，并且更具体地，涉及一种云架构下的电网GIS数据冷热存储方法和系统。

背景技术

云架构为海量数据提供了高效快速的计算、存储功能，在此基础上建立具有高可扩展性的数据管理系统，能为用户提供良好的数据可获取性、数据统一性和安全性等特性。利用云架构进行数据的存储管理，能有效的利用云技术的各种优势，从而更好的为用户提供服务。

但是庞大的数据量随之而来的是有效数据的存储、查找、检索等问题。在将电网地理信息系统进行到云架构上的存储时，面对海量的数据，如何进行快速、准确的存储是目前技术需要解决的实际问题。而数据分类技术的发展给数据的存储提供了一种有效的途径，同时也给用户对数据的调用搜索提供了便利。分类简单的说就是将大数据集通过一定的规则特点先进行分类器的构造，再通过分类器将数据划分成不同的类别的过程。目前比较被大众所熟知的数据分类算法主要有朴素贝叶斯算法(NBC)、K最临近算法(KNN)、人工神经网络等。但是，NBC算法在进行分类时架设属性独立，在实际应用中并不成立，在数据相关性较大时，利用NBC算法的准确率和工作效率均有下降；KNN算法需要对样本进行剪辑，故而在进行分类时的计算量较大，影响分类效率；人工神经网络需要大量的参数设定，且学习时间较慢，会降低分类输出的结果的可信度。

发明内容

为了解决上述问题，本发明提供了一种云架构下的电网GIS数据冷热存储方法和系统，利用对待存储数据的冷热度判断，对不同冷热度的待存储数据进行不同存储区域的划分，并利用主题关键词的类别区分，进行倒排索引的构建，在现有的基于云架构的电网地理信息系统的基础上，实现数据的分类存储，进一步提高数据的调用、存储的效率。

根据本发明的一个方面，提供一种云架构下的电网GIS数据冷热存储方法，其特征在于，所述方法包括：

对多个待存储数据进行冷热度判断；

将每个待存储数据的主题关键词进行类别区分；

将待存储数据进行基于冷热度的分布式存储；以及

对已进行主题关键词类别区分和分布式存储的待存储数据利用映射Map/规约Reduce模型实现倒排索引的构建。

优选地，对多个待存数据进行冷热度判断包括：

判断每个待存储数据的访问次数是否为零；

若待存储数据的访问次数不为零，比较所述待存储数据的访问频率与冷阈值和热阈值；

若所述待存储数据的访问频率小于等于冷阈值，则判断所述待存储数据为冷数据；

若所述待存储数据的访问频率大于等于热阈值，则判断所述待存储数据为热数据；

若所述待存储数据的访问频率大于冷阈值且小于热阈值，则根据待存储数据之前每个周期的访问次数，预测下个周期的数据热度，若所述下个周期的数据热度为热，则所述待存储数据判断为热数据，否则，将所述待存储数据判断为冷数据。

优选地，若待存储数据的访问次数为零，则判断所述待存储数据的云访问值是否为零，若所述待存储数据的云访问值不为零，则根据所述待存储数据的云访问值判断所述待存储数据的热度；若所述待存储数据的云访问值为零，则根据所述待存储数据的文件名、关键字及内容信息与已存储的数据进行关联度分析，查找与所述待存储数据关联度最大的数据，若所述与待存储数据关联度最大的数据为热数据，则所述待存储数据为热数据；若所述与待存储数据关联度最大的数据为冷数据，则所述待存储数据为冷数据。

优选地，在进行每个待存储数据的主题关键词进行类别区分之前，进行所述每个待存储数据的主题关键词提取，其中主题关键词提取方式包括TF-IDF主题关键词提取或数据突发性主题关键词提取。

优选地，根据权利要求4所述的方法，其特征在于，所述TF-IDF主题关键词提取包括：

将待存储数据利用公式

计算所述待存储数据中各关键词与待存储数据的文档之间的关联程度，其中，f(w)为主题关键词w在所述待存储数据的文档中出现的频率值，f_sum代表在所述待存储数据的文档中所有的关键词的数目，D代表所有包含在数据库中的电网GIS数据总数，D(w)代表在数据库中所有包含了主题关键词w的数据总数；

将计算结果从大到小进行排序，排名靠前的主题关键词作为提取的主题关键词。

优选地，所述数据突发性主题关键词提取方法为：

将突发的时间窗口TW的信息数据重新定义为...,BS_n-1,BS_n,BS_n+1,...的序列集，使每个BS_n都存有所有属于第n个时间窗口TW_n范围内的数据信息；

计算w在TW_n内的平均出现频率μ_n(w)；

根据所述μ_n(w)计算w在TW_n内的普遍程度C_n(w)；

根据所述μ_n(w)计算w在TW_n内的突发性主题程度B_n(w)，并判断w是否在突发阶段；

根据C_n(w)和B_n(w)计算w在TW_n内出现的权值W_n(w)；以及

将W_n(w)与事先确定的阈值γ进行比较，将W_n(w)大于阈值γ的待测词确定为提取的主题关键词。

优选地，所述μ_n(w)的计算方法为，若所述w在上一个窗口没出现过，则μ_n-1(w)＝0，若所述w在上一个窗口出现过，则μ_n-1(w)的值为w在上一个窗口的平均出现频率，其中，f_n(w)为待测词在当前窗口的出现频率。

优选地，所述C_n(w)的计算方法为

优选地，所述B_n(w)的计算方法为，并且当B_n(w)≤0时，所述w不在突发阶段，当B_n(w)>0时，所述待测词处于突发阶段，其中，f_n(w)为w在当前窗口的出现频率。

优选地，所述W_n(w)的计算方法为，W_n(w)＝(1-λ)B_n(w)+λ(1-C_n(w))，其中λ为系数。

优选地，所述倒排索引的构建方法为：

利用Map函数得到待存储数据的主题关键词，并保存至相应的Doclist属性文件中；

利用Combine函数对具有相同主题关键词的待存储数据进行汇总；以及

利用Reduce函数结合基于主题关键词的互信息聚类算法，将具有相似主题关键字的Doclist属性合并成倒排索引信息。

优选地，所述基于主题关键词的互信息聚类算法包括：

将待存储数据的主题关键词通过公式

进行初始化；其中PMI(w_i,w_j)为互信息，w_i和w_j为两个主题关键词，N(w_i,w_j)为同时包含w_i和w_j的待存储数据的个数，N(w_i)为包含w_i的待存储数据的个数，N(w_j)为包含w_j的待存储数据的个数。

新建主题关键词集合T_i进行具有相似主题关键词的待存储数据的存储；

对主题关键词集合进行扩展，直至遍历完所有主题关键词集合中的所有关键词。

根据本发明的另一方面，提供了、一种云架构下的电网GIS数据冷热存储系统，其特征在于，包括：

冷热度判断模块，用于判断待存储数据的冷热度；以及

分布式存储模块，用于进行待存储数据的存储并构建倒排索引。

优选地，所述系统还包括关键词提取模块，用于提取待存储数据的主题关键词，所述主题关键词提取方法为TF-IDF主题关键词提取方法和数据突发性主题关键词提取方法。

优选地，所述分布式存储模块利用Map/Reduce函数进行倒排索引的构建。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为现有技术中基于云架构的分布式存储的存储模型；

图2为根据本发明优选实施例的云架构下的电网GIS数据冷热存储方法的流程图；以及

图3为根据本发明优选实施例的云架构下的电网GIS数据冷热存储系统的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为基于云架构的分布式存储的存储模型。基于云架构的分布式存储可以有效地解决海量数据的计算，存储等问题。如图1所示，该模型是由主服务器集群，虚拟节点，从节点三部分构成的。其中主服务器集群是管理和协调各个数据节点，将根据接收到的用户查询请求进行分类控制。虚拟节点则是用来进行小范围内的数据迁移传输存储，以及对数据存储需要变更状态的快速反应。而一定数量的从节点在集群中形成不同的虚拟节点类。这些虚拟的节点类的大小是由分类后的文档索引的数量决定的。

图2为根据本发明优选实施例的云架构下的电网GIS数据冷热存储方法的流程图。如图2所示，云架构下的电网GIS数据冷热存储方法200从步骤201开始。在步骤201中，对多个待存储数据进行冷热度判断。优选地，所述对多个待存数据进行冷热度判断包括：

判断每个待存储数据的访问次数是否为零；

若待存储数据的访问次数不为零，将所述待存储数据的访问频率与冷阈值和热阈值进行比较；

若所述待存储数据的访问频率小于等于冷阈值，则所述待存储数据为冷数据，并将所述待存储数据存储于冷数据区；

若所述待存储数据的访问频率大于等于热阈值，则所述待存储数据为热数据，并将所述待存储数据存储于热数据区；

若所述待存储数据的访问频率大于冷阈值且小于热阈值，则所述待存储数据为周期热数据；将所述周期热数据根据该数据之前每个周期的访问次数用时间序列模型进行预测下个周期的数据热度，若所述下个周期的数据热度为热，则将所述周期热数据迁移至热数据区，否则，将所述周期热数据迁移至冷数据区；

若待存储数据的访问次数为零，则所述待存储数据为新数据，判断所述新数据的云访问值是否为零，若所述新数据的云访问值不为零，则根据所述新数据的云访问值判断所述新数据的热度；若所述新数据的云访问值为零，则根据所述新数据的文件名、关键字及内容信息与已存储的数据进行关联度分析，查找与所述新数据关联度最大的数据，若所述与新数据关联度最大的数据为热数据，则所述新数据为热数据；若所述与新数据关联度最大的数据为冷数据，则所述新数据为冷数据。

优选地，将待存储数据进行冷热度判断后，进行步骤202。在步骤202中，提取每个待存储数据的主题关键词，并根据不同的主题关键词进行相似主题的类别区分。其中，每个待存储数据的主题关键词提取方法包括TF-IDF主题关键词提取或数据突发性主题关键词提取。

优选地，所述TF-IDF主题关键词提取包括：

将经过冷热度判断的待存储数据利用公式

并且更具体地，令TF_i,j为f(w)除以f_sum的值，IDF_i为1+D除以D(w)的值后取对数得到如下公式：

TD(w)＝TF_i,j*IDF_i

其中，TF代表每个词语在给待存储数据的文本中出现的次数，对于不同的文本由于它们的类别不尽相同所以特征项出现的频率也有差异，因此词频TF是分类的一个重要指标。逆向文件频率IDF是反应特征值在文本集分布情况的量化，判断词语是否具有更好的类别区分能力的另外一个度量因素。

优选地，在实际业务处理中，会实时产生临时突发的信息，仅仅依靠统计词频等因素进行权重计算，不能有效提取这些突发信息的主题关键词，因此提供一种数据突发性主题关键词提取方法，所述数据突发性主题关键词提取方法为：

计算w在第n个时间窗口TW_n内的平均出现频率μ_n(w)；

计算w在第n个时间窗口TW_n内的普遍程度C_n(w)；

计算w在第n个时间窗口TW_n内的突发性主题程度B_n(w)，并判断所述待测词w是否在突发阶段；

根据所述μ_n(w)计算所述C_n(w)和B_n(w)，并用C_n(w)和B_n(w)计算w在第n个时间窗口TW_n内出现的权值W_n(w)；以及

将w的权值W_n(w)与事先确定的阈值γ进行比较，所述权值W_n(w)大于阈值γ的主题关键词即为突发性关键词。

优选地，所述w在第n个时间窗口TW_n内的平均出现频率μ_n(w)的计算方法为，若所述w在上一个窗口没出现过，则μ_n-1(w)＝0，若所述w在上一个窗口出现过，则μ_n-1(w)的值为w在上一个窗口的平均出现频率，其中，f_n(w)为w在当前窗口的出现频率。

优选地，所述C_n(w)的计算方法为

优选地，所述B_n(w)的计算方法为，

并且当B_n(w)≤0时，所述w不在突发阶段，当B_n(w)>0时，所述w处于突发阶段。

优选地，所述w在第n个时间窗口TW_n内出现的权值W_n(w)的计算方法为，W_n(w)＝(1-λ)B_n(w)+λ(1-C_n(w))，其中λ为来分配B_n(w)和1-C_n(w)在W_n(w)中的计算重要性程度比例。

优选地，在步骤203中，根据待存储数据的冷热度判断结果，利用分布式文件系统进行待存储数据的存储。其中，冷热度判断结果为热的待存储数据存放在热磁盘中，冷热度判断结果为冷的待存储数据存放在冷磁盘中，根据步骤202所述的主题关键词提取方法对待存储数据进行关键词提取并根据主题关键词的相关性对主题关键词进行分类，最后根据分类结果进行倒排序索引。应当了解的是，步骤202所述的主题关键词提取仅为步骤204中进行主题关键词分类及倒排索引的构建提供主题关键词的提取过程，且待存储数据的存储过程仅与冷热度判断的结果相关，因此步骤202和203的顺序不固定，二者之间可以进行顺序的调整。

优选地，为了对存储系统中数据进行方便快捷的存储、查询和使用，利用Map/Reduce函数进行倒排索引的构建，所述倒排索引的构建方法为，首先利用Map函数进行数据的预处理，将经过Map函数处理后的待存储数据的主题关键词存储至相应的Doclist属性文件中，然后利用Combine函数进行基于相同主题关键词的汇总，最后通过Reduce函数结合基于主题关键词的互信息聚类算法，合并成索引信息，并将合并后的索引信息存储至倒排索引文件完成倒排索引的构建。

优选地，通过互信息聚类算法将具有相似主题的主题关键词集合在一个主题关键词集合中，并结合Reduce函数进行索引的构建，使得用户在信息的查找时，可以快速定位被测关键词的存储位置并及时反馈。所述基于主题关键词的互信息聚类算法包括：

将待存储数据的主题关键词通过公式

进行初始化，

图3为根据本发明优选实施例的云架构下的电网GIS数据冷热存储系统的结构示意图。如图3所示，云架构下的电网GIS数据冷热存储系统300包括冷热度判断模块301和分布式存储模块302。其中，冷热度判断模块301利用冷热度判断算法对输入的待存储数据进行冷热度判断，并将判断结果为热的待存储数据存放至热磁盘，判断结果为冷的待存储数据存放至冷磁盘

优选地，分布式存储模块302为基于云架构下的分布式存储系统，并根据待存储信息的主题关键词的类别进行区分并利用Map/Reduce函数完成倒排索引，实现快速定位数据。

优选地，系统300还包括关键词提取模块303，所述关键词提取模块303通过利用TF-IDF主题关键词提取方法和数据突发性主题关键词提取方法进行待存储数据的关键词提取。

本发明基于云架构下的分布式存储模型，并结合待存储数据的冷热度判断方法，对不同冷热度的待存储数据进行不同存储区域的划分，在现有的基于云架构的电网地理信息系统的基础上，提高数据调用和存储的效率。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种云架构下的电网GIS数据冷热存储方法，其特征在于，所述方法包括：

对多个待存储数据进行冷热度判断；

将每个待存储数据的主题关键词进行类别区分；

将待存储数据进行基于冷热度的分布式存储；以及

2.根据权利要求1所述的方法，其特征在于，对多个待存数据进行冷热度判断包括：

判断每个待存储数据的访问次数是否为零；

3.根据权利要求2所述的方法，其特征在于，若待存储数据的访问次数为零，则判断所述待存储数据的云访问值是否为零，若所述待存储数据的云访问值不为零，则根据所述待存储数据的云访问值判断所述待存储数据的热度；若所述待存储数据的云访问值为零，则根据所述待存储数据的文件名、关键字及内容信息与已存储的数据进行关联度分析，查找与所述待存储数据关联度最大的数据，若所述与待存储数据关联度最大的数据为热数据，则所述待存储数据为热数据；若所述与待存储数据关联度最大的数据为冷数据，则所述待存储数据为冷数据。

4.根据权利要求1所述的方法，其特征在于，在进行每个待存储数据的主题关键词进行类别区分之前，进行所述每个待存储数据的主题关键词提取，其中主题关键词提取方式包括TF-IDF主题关键词提取或数据突发性主题关键词提取。

5.根据权利要求4所述的方法，其特征在于，所述TF-IDF主题关键词提取包括：

将待存储数据利用公式

T D (w) = \frac{f (w)}{f_{s u m}} l o g \frac{1 + D}{D (w)}

6.根据权利要求4所述的方法，其特征在于，所述数据突发性主题关键词提取方法为：

计算w在TW_n内的平均出现频率μ_n(w)；

根据所述μ_n(w)计算w在TW_n内的普遍程度C_n(w)；

根据C_n(w)和B_n(w)计算w在TW_n内出现的权值W_n(w)；以及

7.根据权利要求6所述的方法，其特征在于，所述μ_n(w)的计算方法为，若所述w在上一个窗口没出现过，则μ_n-1(w)＝0，若所述w在上一个窗口出现过，则μ_n-1(w)的值为w在上一个窗口的平均出现频率，其中，f_n(w)为待测词在当前窗口的出现频率。

8.根据权利要求6所述的方法，其特征在于，所述C_n(w)的计算方法为

9.根据权利要求6所述的方法，其特征在于，所述B_n(w)的计算方法为，

并且当B_n(w)≤0时，所述w不在突发阶段，当B_n(w)>0时，所述待测词处于突发阶段，其中，f_n(w)为w在当前窗口的出现频率。

10.根据权利要求6所述的方法，其特征在于，所述W_n(w)的计算方法为，W_n(w)＝(1-λ)B_n(w)+λ(1-C_n(w))，其中λ为系数。

11.根据权利要求1所述的方法，其特征在于，所述倒排索引的构建方法为：

12.根据权利要求11所述的方法，其特征在于，所述基于主题关键词的互信息聚类算法包括：

将待存储数据的主题关键词通过公式

P M I (w_{i}, w_{j}) = l o g \frac{N (w_{i}, w_{j})}{N (w_{i}) \times N (w_{j})}

13.一种云架构下的电网GIS数据冷热存储系统，其特征在于，包括：

冷热度判断模块，用于判断待存储数据的冷热度；以及

14.根据权利要求13所述的系统，其特征在于，所述系统还包括关键词提取模块，用于提取待存储数据的主题关键词，所述主题关键词提取方法为TF-IDF主题关键词提取方法和数据突发性主题关键词提取方法。

15.根据权利要求13所述的系统，其特征在于，所述分布式存储模块利用Map/Reduce函数进行倒排索引的构建。