CN106528608B - 一种云架构下的电网gis数据冷热存储方法和系统 - Google Patents

一种云架构下的电网gis数据冷热存储方法和系统 Download PDF

Info

Publication number
CN106528608B
CN106528608B CN201610855793.4A CN201610855793A CN106528608B CN 106528608 B CN106528608 B CN 106528608B CN 201610855793 A CN201610855793 A CN 201610855793A CN 106528608 B CN106528608 B CN 106528608B
Authority
CN
China
Prior art keywords
data
stored
topic
cold
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610855793.4A
Other languages
English (en)
Other versions
CN106528608A (zh
Inventor
王宪
王景朝
费香泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Anhui Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Anhui Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201610855793.4A priority Critical patent/CN106528608B/zh
Publication of CN106528608A publication Critical patent/CN106528608A/zh
Application granted granted Critical
Publication of CN106528608B publication Critical patent/CN106528608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明通过将待存储数据进行冷热度的预判后,针对判断结果对待存储数据进行不同存储区域的存放,并通过构建Map/Reduce函数,进行倒排索引的构建,在满足用户需求的条件下,提高数据的调用和存储效率,并为后期查找提供快速定位手段。所述方法包括:首先对多个待存储数据进行冷热度判断,随后将进行冷热度判断后的多个待测数据中每个待存储数据的主题关键词将待存储数据进行类别区分,并将待存储数据进行基于冷热度的分布式存储,最后对已进行分布式存储的待存储数据利用映射Map/规约Reduce模型实现倒排索引的构建。

Description

一种云架构下的电网GIS数据冷热存储方法和系统
技术领域
本发明涉及云架构存储领域,并且更具体地,涉及一种云架构下的电网GIS数据冷热存储方法和系统。
背景技术
云架构为海量数据提供了高效快速的计算、存储功能,在此基础上建立具有高可扩展性的数据管理系统,能为用户提供良好的数据可获取性、数据统一性和安全性等特性。利用云架构进行数据的存储管理,能有效的利用云技术的各种优势,从而更好的为用户提供服务。
但是庞大的数据量随之而来的是有效数据的存储、查找、检索等问题。在将电网地理信息系统进行到云架构上的存储时,面对海量的数据,如何进行快速、准确的存储是目前技术需要解决的实际问题。而数据分类技术的发展给数据的存储提供了一种有效的途径,同时也给用户对数据的调用搜索提供了便利。分类简单的说就是将大数据集通过一定的规则特点先进行分类器的构造,再通过分类器将数据划分成不同的类别的过程。目前比较被大众所熟知的数据分类算法主要有朴素贝叶斯算法(NBC)、K最临近算法(KNN)、人工神经网络等。但是,NBC算法在进行分类时架设属性独立,在实际应用中并不成立,在数据相关性较大时,利用NBC算法的准确率和工作效率均有下降;KNN算法需要对样本进行剪辑,故而在进行分类时的计算量较大,影响分类效率;人工神经网络需要大量的参数设定,且学习时间较慢,会降低分类输出的结果的可信度。
发明内容
为了解决上述问题,本发明提供了一种云架构下的电网GIS数据冷热存储方法和系统,利用对待存储数据的冷热度判断,对不同冷热度的待存储数据进行不同存储区域的划分,并利用主题关键词的类别区分,进行倒排索引的构建,在现有的基于云架构的电网地理信息系统的基础上,实现数据的分类存储,进一步提高数据的调用、存储的效率。
根据本发明的一个方面,提供一种云架构下的电网GIS数据冷热存储方法,其特征在于,所述方法包括:
对多个待存储数据进行冷热度判断;
将每个待存储数据的主题关键词进行类别区分;
将待存储数据进行基于冷热度的分布式存储;以及
对已进行主题关键词类别区分和分布式存储的待存储数据利用映射Map/规约Reduce模型实现倒排索引的构建。
优选地,对多个待存数据进行冷热度判断包括:
判断每个待存储数据的访问次数是否为零;
若待存储数据的访问次数不为零,比较所述待存储数据的访问频率与冷阈值和热阈值;
若所述待存储数据的访问频率小于等于冷阈值,则判断所述待存储数据为冷数据;
若所述待存储数据的访问频率大于等于热阈值,则判断所述待存储数据为热数据;
若所述待存储数据的访问频率大于冷阈值且小于热阈值,则根据待存储数据之前每个周期的访问次数,预测下个周期的数据热度,若所述下个周期的数据热度为热,则所述待存储数据判断为热数据,否则,将所述待存储数据判断为冷数据。
优选地,若待存储数据的访问次数为零,则判断所述待存储数据的云访问值是否为零,若所述待存储数据的云访问值不为零,则根据所述待存储数据的云访问值判断所述待存储数据的热度;若所述待存储数据的云访问值为零,则根据所述待存储数据的文件名、关键字及内容信息与已存储的数据进行关联度分析,查找与所述待存储数据关联度最大的数据,若所述与待存储数据关联度最大的数据为热数据,则所述待存储数据为热数据;若所述与待存储数据关联度最大的数据为冷数据,则所述待存储数据为冷数据。
优选地,在进行每个待存储数据的主题关键词进行类别区分之前,进行所述每个待存储数据的主题关键词提取,其中主题关键词提取方式包括TF-IDF主题关键词提取或数据突发性主题关键词提取。
优选地,根据权利要求4所述的方法,其特征在于,所述TF-IDF主题关键词提取包括:
将待存储数据利用公式
Figure BDA0001121999520000031
计算所述待存储数据中各关键词与待存储数据的文档之间的关联程度,其中,f(w)为主题关键词w在所述待存储数据的文档中出现的频率值,fsum代表在所述待存储数据的文档中所有的关键词的数目,D代表所有包含在数据库中的电网GIS数据总数,D(w)代表在数据库中所有包含了主题关键词w的数据总数;
将计算结果从大到小进行排序,排名靠前的主题关键词作为提取的主题关键词。
优选地,所述数据突发性主题关键词提取方法为:
将突发的时间窗口TW的信息数据重新定义为...,BSn-1,BSn,BSn+1,...的序列集,使每个BSn都存有所有属于第n个时间窗口TWn范围内的数据信息;
计算w在TWn内的平均出现频率μn(w);
根据所述μn(w)计算w在TWn内的普遍程度Cn(w);
根据所述μn(w)计算w在TWn内的突发性主题程度Bn(w),并判断w是否在突发阶段;
根据Cn(w)和Bn(w)计算w在TWn内出现的权值Wn(w);以及
将Wn(w)与事先确定的阈值γ进行比较,将Wn(w)大于阈值γ的待测词确定为提取的主题关键词。
优选地,所述μn(w)的计算方法为,
Figure BDA0001121999520000041
Figure BDA0001121999520000045
若所述w在上一个窗口没出现过,则μn-1(w)=0,若所述w在上一个窗口出现过,则μn-1(w)的值为w在上一个窗口的平均出现频率,其中,fn(w)为待测词在当前窗口的出现频率。
优选地,所述Cn(w)的计算方法为
Figure BDA0001121999520000042
优选地,所述Bn(w)的计算方法为,
Figure BDA0001121999520000043
并且当Bn(w)≤0时,所述w不在突发阶段,当Bn(w)>0时,所述待测词处于突发阶段,其中,fn(w)为w在当前窗口的出现频率。
优选地,所述Wn(w)的计算方法为,Wn(w)=(1-λ)Bn(w)+λ(1-Cn(w)),其中λ为系数。
优选地,所述倒排索引的构建方法为:
利用Map函数得到待存储数据的主题关键词,并保存至相应的Doclist属性文件中;
利用Combine函数对具有相同主题关键词的待存储数据进行汇总;以及
利用Reduce函数结合基于主题关键词的互信息聚类算法,将具有相似主题关键字的Doclist属性合并成倒排索引信息。
优选地,所述基于主题关键词的互信息聚类算法包括:
将待存储数据的主题关键词通过公式
Figure BDA0001121999520000044
进行初始化;其中PMI(wi,wj)为互信息,wi和wj为两个主题关键词,N(wi,wj)为同时包含wi和wj的待存储数据的个数,N(wi)为包含wi的待存储数据的个数,N(wj)为包含wj的待存储数据的个数。
新建主题关键词集合Ti进行具有相似主题关键词的待存储数据的存储;
对主题关键词集合进行扩展,直至遍历完所有主题关键词集合中的所有关键词。
根据本发明的另一方面,提供了、一种云架构下的电网GIS数据冷热存储系统,其特征在于,包括:
冷热度判断模块,用于判断待存储数据的冷热度;以及
分布式存储模块,用于进行待存储数据的存储并构建倒排索引。
优选地,所述系统还包括关键词提取模块,用于提取待存储数据的主题关键词,所述主题关键词提取方法为TF-IDF主题关键词提取方法和数据突发性主题关键词提取方法。
优选地,所述分布式存储模块利用Map/Reduce函数进行倒排索引的构建。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为现有技术中基于云架构的分布式存储的存储模型;
图2为根据本发明优选实施例的云架构下的电网GIS数据冷热存储方法的流程图;以及
图3为根据本发明优选实施例的云架构下的电网GIS数据冷热存储系统的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为基于云架构的分布式存储的存储模型。基于云架构的分布式存储可以有效地解决海量数据的计算,存储等问题。如图1所示,该模型是由主服务器集群,虚拟节点,从节点三部分构成的。其中主服务器集群是管理和协调各个数据节点,将根据接收到的用户查询请求进行分类控制。虚拟节点则是用来进行小范围内的数据迁移传输存储,以及对数据存储需要变更状态的快速反应。而一定数量的从节点在集群中形成不同的虚拟节点类。这些虚拟的节点类的大小是由分类后的文档索引的数量决定的。
图2为根据本发明优选实施例的云架构下的电网GIS数据冷热存储方法的流程图。如图2所示,云架构下的电网GIS数据冷热存储方法200从步骤201开始。在步骤201中,对多个待存储数据进行冷热度判断。优选地,所述对多个待存数据进行冷热度判断包括:
判断每个待存储数据的访问次数是否为零;
若待存储数据的访问次数不为零,将所述待存储数据的访问频率与冷阈值和热阈值进行比较;
若所述待存储数据的访问频率小于等于冷阈值,则所述待存储数据为冷数据,并将所述待存储数据存储于冷数据区;
若所述待存储数据的访问频率大于等于热阈值,则所述待存储数据为热数据,并将所述待存储数据存储于热数据区;
若所述待存储数据的访问频率大于冷阈值且小于热阈值,则所述待存储数据为周期热数据;将所述周期热数据根据该数据之前每个周期的访问次数用时间序列模型进行预测下个周期的数据热度,若所述下个周期的数据热度为热,则将所述周期热数据迁移至热数据区,否则,将所述周期热数据迁移至冷数据区;
若待存储数据的访问次数为零,则所述待存储数据为新数据,判断所述新数据的云访问值是否为零,若所述新数据的云访问值不为零,则根据所述新数据的云访问值判断所述新数据的热度;若所述新数据的云访问值为零,则根据所述新数据的文件名、关键字及内容信息与已存储的数据进行关联度分析,查找与所述新数据关联度最大的数据,若所述与新数据关联度最大的数据为热数据,则所述新数据为热数据;若所述与新数据关联度最大的数据为冷数据,则所述新数据为冷数据。
优选地,将待存储数据进行冷热度判断后,进行步骤202。在步骤202中,提取每个待存储数据的主题关键词,并根据不同的主题关键词进行相似主题的类别区分。其中,每个待存储数据的主题关键词提取方法包括TF-IDF主题关键词提取或数据突发性主题关键词提取。
优选地,所述TF-IDF主题关键词提取包括:
将经过冷热度判断的待存储数据利用公式
Figure BDA0001121999520000071
计算所述待存储数据中各关键词与待存储数据的文档之间的关联程度,其中,f(w)为主题关键词w在所述待存储数据的文档中出现的频率值,fsum代表在所述待存储数据的文档中所有的关键词的数目,D代表所有包含在数据库中的电网GIS数据总数,D(w)代表在数据库中所有包含了主题关键词w的数据总数;
并且更具体地,令TFi,j为f(w)除以fsum的值,IDFi为1+D除以D(w)的值后取对数得到如下公式:
TD(w)=TFi,j*IDFi
其中,TF代表每个词语在给待存储数据的文本中出现的次数,对于不同的文本由于它们的类别不尽相同所以特征项出现的频率也有差异,因此词频TF是分类的一个重要指标。逆向文件频率IDF是反应特征值在文本集分布情况的量化,判断词语是否具有更好的类别区分能力的另外一个度量因素。
将计算结果从大到小进行排序,排名靠前的主题关键词作为提取的主题关键词。
优选地,在实际业务处理中,会实时产生临时突发的信息,仅仅依靠统计词频等因素进行权重计算,不能有效提取这些突发信息的主题关键词,因此提供一种数据突发性主题关键词提取方法,所述数据突发性主题关键词提取方法为:
将突发的时间窗口TW的信息数据重新定义为...,BSn-1,BSn,BSn+1,...的序列集,使每个BSn都存有所有属于第n个时间窗口TWn范围内的数据信息;
计算w在第n个时间窗口TWn内的平均出现频率μn(w);
计算w在第n个时间窗口TWn内的普遍程度Cn(w);
计算w在第n个时间窗口TWn内的突发性主题程度Bn(w),并判断所述待测词w是否在突发阶段;
根据所述μn(w)计算所述Cn(w)和Bn(w),并用Cn(w)和Bn(w)计算w在第n个时间窗口TWn内出现的权值Wn(w);以及
将w的权值Wn(w)与事先确定的阈值γ进行比较,所述权值Wn(w)大于阈值γ的主题关键词即为突发性关键词。
优选地,所述w在第n个时间窗口TWn内的平均出现频率μn(w)的计算方法为,
Figure BDA0001121999520000081
若所述w在上一个窗口没出现过,则μn-1(w)=0,若所述w在上一个窗口出现过,则μn-1(w)的值为w在上一个窗口的平均出现频率,其中,fn(w)为w在当前窗口的出现频率。
优选地,所述Cn(w)的计算方法为
Figure BDA0001121999520000082
优选地,所述Bn(w)的计算方法为,
Figure BDA0001121999520000083
并且当Bn(w)≤0时,所述w不在突发阶段,当Bn(w)>0时,所述w处于突发阶段。
优选地,所述w在第n个时间窗口TWn内出现的权值Wn(w)的计算方法为,Wn(w)=(1-λ)Bn(w)+λ(1-Cn(w)),其中λ为来分配Bn(w)和1-Cn(w)在Wn(w)中的计算重要性程度比例。
优选地,在步骤203中,根据待存储数据的冷热度判断结果,利用分布式文件系统进行待存储数据的存储。其中,冷热度判断结果为热的待存储数据存放在热磁盘中,冷热度判断结果为冷的待存储数据存放在冷磁盘中,根据步骤202所述的主题关键词提取方法对待存储数据进行关键词提取并根据主题关键词的相关性对主题关键词进行分类,最后根据分类结果进行倒排序索引。应当了解的是,步骤202所述的主题关键词提取仅为步骤204中进行主题关键词分类及倒排索引的构建提供主题关键词的提取过程,且待存储数据的存储过程仅与冷热度判断的结果相关,因此步骤202和203的顺序不固定,二者之间可以进行顺序的调整。
优选地,为了对存储系统中数据进行方便快捷的存储、查询和使用,利用Map/Reduce函数进行倒排索引的构建,所述倒排索引的构建方法为,首先利用Map函数进行数据的预处理,将经过Map函数处理后的待存储数据的主题关键词存储至相应的Doclist属性文件中,然后利用Combine函数进行基于相同主题关键词的汇总,最后通过Reduce函数结合基于主题关键词的互信息聚类算法,合并成索引信息,并将合并后的索引信息存储至倒排索引文件完成倒排索引的构建。
优选地,通过互信息聚类算法将具有相似主题的主题关键词集合在一个主题关键词集合中,并结合Reduce函数进行索引的构建,使得用户在信息的查找时,可以快速定位被测关键词的存储位置并及时反馈。所述基于主题关键词的互信息聚类算法包括:
将待存储数据的主题关键词通过公式
Figure BDA0001121999520000091
进行初始化,
新建主题关键词集合Ti进行具有相似主题关键词的待存储数据的存储;
对主题关键词集合进行扩展,直至遍历完所有主题关键词集合中的所有关键词。
图3为根据本发明优选实施例的云架构下的电网GIS数据冷热存储系统的结构示意图。如图3所示,云架构下的电网GIS数据冷热存储系统300包括冷热度判断模块301和分布式存储模块302。其中,冷热度判断模块301利用冷热度判断算法对输入的待存储数据进行冷热度判断,并将判断结果为热的待存储数据存放至热磁盘,判断结果为冷的待存储数据存放至冷磁盘
优选地,分布式存储模块302为基于云架构下的分布式存储系统,并根据待存储信息的主题关键词的类别进行区分并利用Map/Reduce函数完成倒排索引,实现快速定位数据。
优选地,系统300还包括关键词提取模块303,所述关键词提取模块303通过利用TF-IDF主题关键词提取方法和数据突发性主题关键词提取方法进行待存储数据的关键词提取。
本发明基于云架构下的分布式存储模型,并结合待存储数据的冷热度判断方法,对不同冷热度的待存储数据进行不同存储区域的划分,在现有的基于云架构的电网地理信息系统的基础上,提高数据调用和存储的效率。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (7)

1.一种云架构下的电网GIS数据冷热存储方法,其特征在于,所述方法包括:
对多个待存储数据进行冷热度判断;
将每个待存储数据的主题关键词进行类别区分;
在进行每个待存储数据的主题关键词进行类别区分之前,进行所述每个待存储数据的主题关键词提取,其中主题关键词提取方式包括TF-IDF主题关键词提取或数据突发性主题关键词提取;
所述数据突发性主题关键词提取方法为:
将突发的时间窗口TW的信息数据重新定义为...,BSn-1,BSn,BSn+1,...的序列集,使每个BSn都存有所有属于第n个时间窗口TWn范围内的数据信息;
计算w在TWn内的平均出现频率μn(w);
根据所述μn(w)计算w在TWn内的普遍程度Cn(w);
根据所述μn(w)计算w在TWn内的突发性主题程度Bn(w),并判断w是否在突发阶段;
根据Cn(w)和Bn(w)计算w在TWn内出现的权值Wn(w);
将Wn(w)与事先确定的阈值γ进行比较,将Wn(w)大于阈值γ的待测词确定为提取的主题关键词;
所述μn(w)的计算方法为,
Figure FDA0003619894710000011
若所述w在上一个窗口没出现过,则μn-1(w)=0,若所述w在上一个窗口出现过,则μn-1(w)的值为w在上一个窗口的平均出现频率,其中,fn(w)为待测词在当前窗口的出现频率;
所述Cn(w)的计算方法为
Figure FDA0003619894710000012
所述Bn(w)的计算方法为,
Figure FDA0003619894710000013
并且当Bn(w)≤0时,所述w不在突发阶段,当Bn(w)>0时,所述待测词处于突发阶段,其中,fn(w)为w在当前窗口的出现频率;
所述Wn(w)的计算方法为,Wn(w)=(1-λ)Bn(w)+λ(1-Cn(w)),其中λ为系数;
将待存储数据进行基于冷热度的分布式存储;以及
对已进行主题关键词类别区分和分布式存储的待存储数据利用映射Map/规约Reduce模型实现倒排索引的构建。
2.根据权利要求1所述的方法,其特征在于,对多个待存数据进行冷热度判断包括:
判断每个待存储数据的访问次数是否为零;
若待存储数据的访问次数不为零,比较所述待存储数据的访问频率与冷阈值和热阈值;
若所述待存储数据的访问频率小于等于冷阈值,则判断所述待存储数据为冷数据;
若所述待存储数据的访问频率大于等于热阈值,则判断所述待存储数据为热数据;
若所述待存储数据的访问频率大于冷阈值且小于热阈值,则根据待存储数据之前每个周期的访问次数,预测下个周期的数据热度,若所述下个周期的数据热度为热,则所述待存储数据判断为热数据,否则,将所述待存储数据判断为冷数据。
3.根据权利要求2所述的方法,其特征在于,若待存储数据的访问次数为零,则判断所述待存储数据的云访问值是否为零,若所述待存储数据的云访问值不为零,则根据所述待存储数据的云访问值判断所述待存储数据的热度;若所述待存储数据的云访问值为零,则根据所述待存储数据的文件名、关键字及内容信息与已存储的数据进行关联度分析,查找与所述待存储数据关联度最大的数据,若与所述待存储数据关联度最大的数据为热数据,则所述待存储数据为热数据;若与所述待存储数据关联度最大的数据为冷数据,则所述待存储数据为冷数据。
4.根据权利要求1所述的方法,其特征在于,所述TF-IDF主题关键词提取包括:
将待存储数据利用公式
Figure FDA0003619894710000031
计算所述待存储数据中各关键词与待存储数据的文档之间的关联程度,其中,f(w)为主题关键词w在所述待存储数据的文档中出现的频率值,fsum代表在所述待存储数据的文档中所有的关键词的数目,D代表所有包含在数据库中的电网GIS数据总数,D(w)代表在数据库中所有包含了主题关键词w的数据总数;
将计算结果从大到小进行排序,排名靠前的主题关键词作为提取的主题关键词。
5.根据权利要求1所述的方法,其特征在于,所述倒排索引的构建方法为:
利用Map函数得到待存储数据的主题关键词,并保存至相应的Doclist属性文件中;
利用Combine函数对具有相同主题关键词的待存储数据进行汇总;以及
利用Reduce函数结合基于主题关键词的互信息聚类算法,将具有相似主题关键字的Doclist属性合并成倒排索引信息。
6.根据权利要求5所述的方法,其特征在于,所述基于主题关键词的互信息聚类算法包括:
将待存储数据的主题关键词通过公式
Figure FDA0003619894710000032
进行初始化;其中PMI(wi,wj)为互信息,wi和wj为两个主题关键词,N(wi,wj)为同时包含wi和wj的待存储数据的个数,N(wi)为包含wi的待存储数据的个数,N(wj)为包含wj的待存储数据的个数;
新建主题关键词集合Ti进行具有相似主题关键词的待存储数据的存储;
对主题关键词集合进行扩展,直至遍历完所有主题关键词集合中的所有关键词。
7.一种云架构下的电网GIS数据冷热存储系统,其特征在于,包括:
冷热度判断模块,用于判断待存储数据的冷热度;
关键词提取模块,用于提取待存储数据的主题关键词,所述主题关键词提取方法为TF-IDF主题关键词提取方法和数据突发性主题关键词提取方法,其包括:
将每个待存储数据的主题关键词进行类别区分;
在进行每个待存储数据的主题关键词进行类别区分之前,进行所述每个待存储数据的主题关键词提取,其中主题关键词提取方式包括TF-IDF主题关键词提取或数据突发性主题关键词提取;
所述数据突发性主题关键词提取方法为:
将突发的时间窗口TW的信息数据重新定义为...,BSn-1,BSn,BSn+1,...的序列集,使每个BSn都存有所有属于第n个时间窗口TWn范围内的数据信息;
计算w在TWn内的平均出现频率μn(w);
根据所述μn(w)计算w在TWn内的普遍程度Cn(w);
根据所述μn(w)计算w在TWn内的突发性主题程度Bn(w),并判断w是否在突发阶段;
根据Cn(w)和Bn(w)计算w在TWn内出现的权值Wn(w);
将Wn(w)与事先确定的阈值γ进行比较,将Wn(w)大于阈值γ的待测词确定为提取的主题关键词;
所述μn(w)的计算方法为,
Figure FDA0003619894710000041
若所述w在上一个窗口没出现过,则μn-1(w)=0,若所述w在上一个窗口出现过,则μn-1(w)的值为w在上一个窗口的平均出现频率,其中,fn(w)为待测词在当前窗口的出现频率;
所述Cn(w)的计算方法为
Figure FDA0003619894710000042
所述Bn(w)的计算方法为,
Figure FDA0003619894710000051
并且当Bn(w)≤0时,所述w不在突发阶段,当Bn(w)>0时,所述待测词处于突发阶段,其中,fn(w)为w在当前窗口的出现频率;
所述Wn(w)的计算方法为,Wn(w)=(1-λ)Bn(w)+λ(1-Cn(w)),其中λ为系数;以及
分布式存储模块,用于将待存储数据进行基于冷热度的分布式存储;以及对已进行主题关键词类别区分和分布式存储的待存储数据利用映射Map/规约Reduce模型实现倒排索引的构建。
CN201610855793.4A 2016-09-27 2016-09-27 一种云架构下的电网gis数据冷热存储方法和系统 Active CN106528608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610855793.4A CN106528608B (zh) 2016-09-27 2016-09-27 一种云架构下的电网gis数据冷热存储方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610855793.4A CN106528608B (zh) 2016-09-27 2016-09-27 一种云架构下的电网gis数据冷热存储方法和系统

Publications (2)

Publication Number Publication Date
CN106528608A CN106528608A (zh) 2017-03-22
CN106528608B true CN106528608B (zh) 2022-07-01

Family

ID=58344582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610855793.4A Active CN106528608B (zh) 2016-09-27 2016-09-27 一种云架构下的电网gis数据冷热存储方法和系统

Country Status (1)

Country Link
CN (1) CN106528608B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357932B (zh) * 2017-07-31 2020-03-20 云城(北京)数据科技有限公司 一种文件存储方法及装置
CN109033298A (zh) * 2018-07-14 2018-12-18 北方工业大学 一种在异构hdfs集群下的数据分配方法
CN110968564B (zh) * 2018-09-28 2023-04-25 阿里巴巴集团控股有限公司 一种数据处理方法及数据状态预测模型的训练方法
CN109683808A (zh) * 2018-11-05 2019-04-26 北京盛和大地数据科技有限公司 基于用户行为模式的自适应数据刻录控制方法及装置
CN110362277B (zh) * 2019-07-19 2021-03-02 重庆大学 基于混合存储系统的数据分类存储方法
CN112784165B (zh) * 2021-01-29 2024-07-19 北京百度网讯科技有限公司 关联关系预估模型的训练方法以及预估文件热度的方法
CN114647386B (zh) * 2022-04-02 2023-12-26 水发科技信息(山东)有限公司 基于人工智能的大数据分布式存储方法
CN115985434B (zh) * 2022-12-06 2023-10-20 湘南学院 医疗大数据的数据处理方法及智能处理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102696010A (zh) * 2009-09-08 2012-09-26 弗森-艾奥公司 用于将数据高速缓存在固态存储设备上的装置、系统和方法
CN103064902A (zh) * 2012-12-18 2013-04-24 厦门市美亚柏科信息股份有限公司 Hdfs中数据的存储方法、读取方法及存储系统、读取系统
CN103616944A (zh) * 2013-10-18 2014-03-05 杭州电子科技大学 云存储系统中基于预判性绿色数据分类策略的降耗方法
CN104102648A (zh) * 2013-04-07 2014-10-15 腾讯科技(深圳)有限公司 基于用户行为数据的兴趣推荐方法及装置
CN104765848A (zh) * 2015-04-17 2015-07-08 中国人民解放军空军航空大学 混合云存储中支持结果高效排序的对称可搜索加密方法
CN105138602A (zh) * 2015-08-06 2015-12-09 中国电力科学研究院 一种三维协同平台的构架系统及其使用方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9594788B2 (en) * 2011-02-25 2017-03-14 International Business Machines Corporation Displaying logical statement relationships between diverse documents in a research domain

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102696010A (zh) * 2009-09-08 2012-09-26 弗森-艾奥公司 用于将数据高速缓存在固态存储设备上的装置、系统和方法
CN103064902A (zh) * 2012-12-18 2013-04-24 厦门市美亚柏科信息股份有限公司 Hdfs中数据的存储方法、读取方法及存储系统、读取系统
CN104102648A (zh) * 2013-04-07 2014-10-15 腾讯科技(深圳)有限公司 基于用户行为数据的兴趣推荐方法及装置
CN103616944A (zh) * 2013-10-18 2014-03-05 杭州电子科技大学 云存储系统中基于预判性绿色数据分类策略的降耗方法
CN104765848A (zh) * 2015-04-17 2015-07-08 中国人民解放军空军航空大学 混合云存储中支持结果高效排序的对称可搜索加密方法
CN105138602A (zh) * 2015-08-06 2015-12-09 中国电力科学研究院 一种三维协同平台的构架系统及其使用方法

Also Published As

Publication number Publication date
CN106528608A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN106528608B (zh) 一种云架构下的电网gis数据冷热存储方法和系统
CN108304444B (zh) 信息查询方法及装置
US6212526B1 (en) Method for apparatus for efficient mining of classification models from databases
CN110674318A (zh) 一种基于引文网络社区发现的数据推荐方法
CN108897761A (zh) 一种聚簇存储方法及装置
CN105022761A (zh) 群组查找方法和装置
CN107688752B (zh) 一种面向多视图聚类挖掘的个性化隐私保护方法
CN110489558A (zh) 文章聚合方法和装置、介质和计算设备
JP2016540332A (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
Cacheda et al. A case study of distributed information retrieval architectures to index one terabyte of text
CN105373546A (zh) 一种用于知识服务的信息处理方法及系统
Huang et al. Broadcasting dependent data for ordered queries without replication in a multi-channel mobile environment
Li et al. Netnews bursty hot topic detection based on bursty features
Tian et al. Image search reranking with hierarchical topic awareness
Bouhlel et al. Hypergraph learning with collaborative representation for image search reranking
WO2020241207A1 (ja) データ管理装置、制御方法、及び記憶媒体
JPH09114847A (ja) 情報処理装置
Li et al. Research on hot news discovery model based on user interest and topic discovery
CN117634894B (zh) 生态环境风险评估方法、装置、电子设备及存储介质
Hobbs et al. Using intelligent agents for social sensing across disadvantaged networks
Siregar et al. Improvement of term weight result in the information retrieval systems
KR101096285B1 (ko) 연관 검색 쿼리 추출 방법 및 시스템
CN112506959B (zh) 智能船舶数据库检索的数据调度方法、装置和检索系统
Zhang et al. An efficient algorithm for clustering search engine results
Sun et al. A Point of Interest Intelligent Search Method based on Browsing History.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant