CN111159152B - 基于大数据处理技术的二次运维数据融合方法 - Google Patents
基于大数据处理技术的二次运维数据融合方法 Download PDFInfo
- Publication number
- CN111159152B CN111159152B CN201911383799.6A CN201911383799A CN111159152B CN 111159152 B CN111159152 B CN 111159152B CN 201911383799 A CN201911383799 A CN 201911383799A CN 111159152 B CN111159152 B CN 111159152B
- Authority
- CN
- China
- Prior art keywords
- data
- big
- source
- processing technology
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于大数据处理技术的二次运维数据融合方法,包括如下步骤:部署Hadoop大数据平台,实现电力二次数据融合任务分配;利用大数据平台提供的接口结合关系型数据库,实现数据的高速读取和存储;以调度平台的子系统作为数据源进行数据信息采集,并通过数据清洗、数据集成、数据选择、数据变换对多数据进行预处理;利用欧氏距离作为相似性指标进行数据聚类,根据统一数据模型的定义规则,将多源数据结合成新的多维度数据,实现数据融合;将多维度数据存入关系型数据库,供其他功能模块调用。本发明可实现子系统的数据交互,有利于提高运维主站的数据处理和管理能力。
Description
技术领域
本发明涉及智能电网领域,特别涉及电力调度数据网涉及的各个不同系统进行信息交互融合的一种方法。
背景技术
智能变电站二次设备种类繁多,不同类型、不同厂家生产的二次设备的设备监测信息不同,状态信息的属性也不相同。在智能运维主站端,随着接入的运维子站数目增多,数据平台将面临日益增长的多源、异构电力大数据,传统的分析处理方法将越来越无法承受电力企业发展的需求。为了解决现有继电保护等二次设备联网系统信息数据独立分散的问题,有必要研究面向各级电网的完整故障及异常数据集,以全面描述电网异常事件中一、二次设备及电网结构信息。
发明内容
本发明的目的在于提供一种基于大数据处理技术的二次运维数据融合方法,实现系统数据交互,有利于提高运维主站的数据处理和管理能力。
本发明的目的可以这样实现,设计一种基于大数据处理技术的二次运维数据融合方法,包括以下步骤:
S1、构建Hadoop大数据平台,安装并配置Hadoop分布式机群,计算机之间能够通过MapReduce机制进行任务分发和结果统计;
S2、Hadoop大数据平台和关系型数据库进行结合,使用Hadoop提供的数据口接口,实现对二次大数据的高速存储和读取;
S3、以调度平台的子系统作为数据源进行数据信息采集形成多源数据,并通过数据清洗、数据集成、数据选择、数据变换对多源数据进行预处理;
S4、选择欧氏距离作为相似性度量指标,通过相似性指标聚类的方法对待挖掘数据进行聚类;根据统一数据模型的定义规则,对同类的多源数据结合成新的多维度数据,实现二次数据融合;
S5、将多维度数据存入关系型数据库,供其他功能模块调用。
进一步地,所述步骤S3包括:
S31、调度平台的子系统包括D5000系统、整定计算系统、保信及录波联网系统、行波测距系统,子系统进行多源数据信息采集;
S32、数据清洗,去掉多源数据中重复冗余的数据;
S33、数据集成,消除因条件不一样所引起的数据差异,为后续数据处理提供方便;条件包括类型、平台;
S34、数据选择,以设定参数为筛选条件,抽取目标数据对象;
S35、数据变换,降低数据维数,缩减数据量,确定出有价值的数据。
进一步地,步骤S4包括:
S41、根据数据预处理的结果,将处理后的数据投影到空间坐标系;
S42、计算数据点之间的欧式距离;
S43、通过阈值确定数据相似度;
S44、通过数据相似度确定同类数据;
S45、将同类的多源数据结合成新的多维度数据。
进一步地,步骤S5中将多维度统一模型数据存入关系型数据库,功能模块通过访问关系型数据库获得完整数据信息。
进一步地,设定参数包括特定时间;降低数据维数包括由二维数据降为一维数据。
进一步地,阈值设定为90%。
进一步地,统一数据模型为汇总了多个子系统的数据之后,对同一个数据模型做信息提取,汇总之后形成的信息属性较全的数据模型的集合。
本发明将大数据分析技术与二次运维技术相结合,挖掘时序性数据,可以对设备的运行规律进行了解,从而对其规律进行深入研究和应用。引入数据挖掘分析技术来处理二次大数据,研究和建立Hadoop大数据平台,实现对二次数据的获取、存储、处理分析的通用分布式处理,构建大规模、低延时的数据分析应用,实现调度D5000系统、整定计算系统、二次设备联网系统的数据交互,有利于提高运维主站的数据处理和管理能力。
附图说明
图1是本发明较佳实施例的流程图;
图2是本发明较佳实施例之多源数据采集及预处理的流程图;
图3是本发明较佳实施例之多源数据融合的流程图。
具体实施方式
以下结合实施例对本发明作进一步的描述。
如图1所示,一种基于大数据处理技术的二次运维数据融合方法,包括如下步骤:
步骤S1、在电网统一数据平台中构建Hadoop大数据平台(Hadoop是一个开源的分布式存储分布式计算平台),安装并配置Hadoop分布式机群(即多台服务器,部署Hadoop服务的集群),计算机之间能够通过MapReduce机制(并行处理框架,实现任务分解和调度)进行任务分发和结果统计;
步骤S2、Hadoop大数据平台和关系型数据库进行结合,使用Hadoop提供的数据口接口,实现对二次大数据的高速存储和读取;
步骤S3、以调度平台的各子系统作为数据源进行数据信息采集形成多源数据,并通过数据清洗、数据集成、数据选择、数据变换等手段对多数据进行预处理;
步骤S4、选择欧氏距离作为相似性度量指标,通过相似性指标聚类的方法对待挖掘数据进行聚类;根据统一数据模型的定义规则,对同类的多源数据结合成新的多维度数据,实现二次数据融合;
步骤S5、将多维度数据存入关系型数据库,供其他功能模块调用。
如图2所示,其中多源数据采集及预处理,包括如下步骤:
步骤S31、从D5000系统、整定计算系统、保信及录波联网系统等调度平台的子系统进行多源数据信息采集;
步骤S32、数据清洗,去掉多源数据中重复冗余的数据,即去掉不同系统针对同一信息点同一描述的数据,如变电站内冗余的装置模型数据;
步骤S33、数据集成,消除因类型、平台等条件不一样所引起的数据差异,为后续数据处理提供方便,如保信系统与D5000获取的同一时间点的录波文件;
步骤S34、数据选择,以设定参数为筛选条件,抽取目标数据对象;设定参数包括特定时间。
步骤S35、数据变换,降低数据维数,缩减数据量,确定出真正有价值的数据;降低数据维数包括由二维数据降为一维数据。
如图3所示,多源数据融合,包括如下步骤:
步骤S41、根据数据预处理的结果,将相关数据投影到空间坐标系;
步骤S42、计算数据点之间的欧式距离;
步骤S43、通过阈值确定数据相似度;阈值设定为90%。欧式距离代表两数据点的差异度,当欧式距离小于特定值(特定值为阈值映射的距离参数,实际效果为包含相关数据的90%)时,认为其数据相似度达于90%。
步骤S44、通过数据相似度确定同类数据。
步骤S45、依据数据模型的定义规则,挖掘同类数据的潜在信息,将同类的多源数据结合成新的多维度数据。从不同子系统获取的同一数据模型属性侧重点不同,将差异信息提取之后汇总多系统来源的同一个模型形成新的同一数据模型。统一数据模型为汇总了多个子系统的数据之后,对同一个数据模型做信息提取,汇总之后形成的信息属性较全的数据模型的集合。
本发明将大数据分析技术与二次运维技术相结合,利用该技术挖掘出设备运行潜在规律。在此过程中挖掘时序性数据,可以对设备的运行规律进行了解,从而对其规律进行深入研究和应用。引入数据挖掘分析技术来处理二次大数据,研究和建立Hadoop大数据平台,实现对二次数据的获取、存储、处理分析的通用分布式处理,构建大规模、低延时的数据分析应用,实现调度D5000系统、整定计算系统、二次设备联网系统的数据交互,有利于提高运维主站的数据处理和管理能力。
Claims (6)
1.一种基于大数据处理技术的二次运维数据融合方法,其特征在于,包括以下步骤:
S1、构建Hadoop大数据平台,安装并配置Hadoop分布式机群,计算机之间能够通过MapReduce机制进行任务分发和结果统计;
S2、Hadoop大数据平台和关系型数据库进行结合,使用Hadoop提供的数据口接口,实现对二次大数据的高速存储和读取;
S3、以调度平台的子系统作为数据源进行数据信息采集形成多源数据,并通过数据清洗、数据集成、数据选择、数据变换对多源数据进行预处理;
S4、选择欧氏距离作为相似性度量指标,通过相似性指标聚类的方法对待挖掘数据进行聚类;根据统一数据模型的定义规则,对同类的多源数据结合成新的多维度数据,实现二次数据融合;
步骤S4包括:
S41、根据数据预处理的结果,将处理后的数据投影到空间坐标系;
S42、计算数据点之间的欧式距离;
S43、通过阈值确定数据相似度;
S44、通过数据相似度确定同类数据;
S45、将同类的多源数据结合成新的多维度数据;
S5、将多维度数据存入关系型数据库,供其他功能模块调用。
2.根据权利要求1所述的基于大数据处理技术的二次运维数据融合方法,其特征在于,所述步骤S3包括:
S31、调度平台的子系统包括D5000系统、整定计算系统、保信及录波联网系统、行波测距系统,子系统进行多源数据信息采集;
S32、数据清洗,去掉多源数据中重复冗余的数据;
S33、数据集成,消除因条件不一样所引起的数据差异,为后续数据处理提供方便;条件包括类型、平台;
S34、数据选择,以设定参数为筛选条件,抽取目标数据对象;
S35、数据变换,降低数据维数,缩减数据量,确定出有价值的数据。
3.根据权利要求1所述的基于大数据处理技术的二次运维数据融合方法,其特征在于:步骤S5中将多维度统一模型数据存入关系型数据库,功能模块通过访问关系型数据库获得完整数据信息。
4.根据权利要求2所述的基于大数据处理技术的二次运维数据融合方法,其特征在于:设定参数包括特定时间;降低数据维数包括由二维数据降为一维数据。
5.根据权利要求2所述的基于大数据处理技术的二次运维数据融合方法,其特征在于:阈值设定为90%。
6.根据权利要求1所述的基于大数据处理技术的二次运维数据融合方法,其特征在于:统一数据模型为汇总了多个子系统的数据之后,对同一个数据模型做信息提取,汇总之后形成的信息属性较全的数据模型的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911383799.6A CN111159152B (zh) | 2019-12-28 | 2019-12-28 | 基于大数据处理技术的二次运维数据融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911383799.6A CN111159152B (zh) | 2019-12-28 | 2019-12-28 | 基于大数据处理技术的二次运维数据融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159152A CN111159152A (zh) | 2020-05-15 |
CN111159152B true CN111159152B (zh) | 2023-06-09 |
Family
ID=70558830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911383799.6A Active CN111159152B (zh) | 2019-12-28 | 2019-12-28 | 基于大数据处理技术的二次运维数据融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159152B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666274B (zh) * | 2020-06-05 | 2023-08-25 | 北京妙医佳健康科技集团有限公司 | 数据融合方法、装置、电子设备及计算机可读存储介质 |
CN113219897A (zh) * | 2021-05-28 | 2021-08-06 | 沈阳恒久安泰环保与节能科技有限公司 | 基于大数据和人工智能的冷热联供智能调控系统和方法 |
JP7151009B1 (ja) * | 2022-03-25 | 2022-10-11 | 株式会社博報堂Dyホールディングス | 情報処理システム、コンピュータプログラム、及び情報処理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730394A (zh) * | 2017-09-07 | 2018-02-23 | 国网山东省电力公司淄博供电公司 | 基于大数据的全景电网多元异构数据融合方法 |
CN108985531A (zh) * | 2017-06-01 | 2018-12-11 | 中国科学院深圳先进技术研究院 | 一种多模异构电力大数据融合分析管理系统及方法 |
WO2019233047A1 (zh) * | 2018-06-07 | 2019-12-12 | 国电南瑞科技股份有限公司 | 基于电网调度的运维方法 |
-
2019
- 2019-12-28 CN CN201911383799.6A patent/CN111159152B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985531A (zh) * | 2017-06-01 | 2018-12-11 | 中国科学院深圳先进技术研究院 | 一种多模异构电力大数据融合分析管理系统及方法 |
CN107730394A (zh) * | 2017-09-07 | 2018-02-23 | 国网山东省电力公司淄博供电公司 | 基于大数据的全景电网多元异构数据融合方法 |
WO2019233047A1 (zh) * | 2018-06-07 | 2019-12-12 | 国电南瑞科技股份有限公司 | 基于电网调度的运维方法 |
Non-Patent Citations (1)
Title |
---|
孙东磊 ; 吴奎华 ; 吴健 ; 冯亮 ; 刘晓明 ; .基于多源数据集成的电网规划综合数据平台.山东电力技术.2018,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111159152A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159152B (zh) | 基于大数据处理技术的二次运维数据融合方法 | |
CN107402976B (zh) | 一种基于多元异构模型的电网多源数据融合方法及系统 | |
CN107895176B (zh) | 一种面向水电机群广域监测诊断的雾计算系统及方法 | |
CN107330056B (zh) | 基于大数据云计算平台的风电场scada系统及其运行方法 | |
CN107124394B (zh) | 一种电力通信网络安全态势预测方法和系统 | |
CN107577771B (zh) | 一种大数据挖掘系统 | |
CN109582667A (zh) | 一种基于电力调控大数据的多数据库混合存储方法及系统 | |
CN109582717B (zh) | 一种面向电力大数据的数据库统一平台及其读取方法 | |
CN103559562A (zh) | 电网智能运行系统及其实现方法 | |
CN104616205A (zh) | 一种基于分布式日志分析的电力系统运行状态监视方法 | |
CN105427193A (zh) | 一种基于分布式时序数据服务的大数据分析装置及方法 | |
CN104616092A (zh) | 一种基于分布式日志分析的行为模式处理方法 | |
CN114416855A (zh) | 一种基于电力大数据的可视化平台及方法 | |
CN112559634A (zh) | 一种基于计算机云计算大数据用数据管理系统 | |
CN112884452A (zh) | 一种智能运维多源数据采集可视化分析系统 | |
CN112883001A (zh) | 一种基于营配贯通数据可视化平台的数据处理方法、装置及介质 | |
CN106407072A (zh) | 一种大数据平台的监控系统 | |
CN117171244A (zh) | 基于数据中台构建的企业数据管理系统及其数据分析方法 | |
CN102609314A (zh) | 一种虚拟机量化管理方法和系统 | |
CN116632826A (zh) | 一种配电网的问题处理方法、装置、电子设备及存储介质 | |
CN116776543A (zh) | 一种面向智能电网的电力大数据应用方法 | |
Yang et al. | Technology research on panoramic situation awareness of operation state of smart distribution network | |
Li et al. | The fast simulation architecture construction for integrated electric transmission and distribution power grid based on big data platform | |
CN114238045A (zh) | 一种电网多源量测数据完整性判断及自动修复系统和方法 | |
CN113011047A (zh) | 一种基于220kV及以下智能变电站二次系统的可靠性分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |