CN112860769B - 一种能源规划数据管理系统 - Google Patents
一种能源规划数据管理系统 Download PDFInfo
- Publication number
- CN112860769B CN112860769B CN202110261111.8A CN202110261111A CN112860769B CN 112860769 B CN112860769 B CN 112860769B CN 202110261111 A CN202110261111 A CN 202110261111A CN 112860769 B CN112860769 B CN 112860769B
- Authority
- CN
- China
- Prior art keywords
- data
- energy planning
- planning data
- mining
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013439 planning Methods 0.000 title claims abstract description 177
- 238000013523 data management Methods 0.000 title claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 71
- 238000005065 mining Methods 0.000 claims abstract description 60
- 238000007621 cluster analysis Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 238000007418 data mining Methods 0.000 claims abstract description 13
- 238000010606 normalization Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000010224 classification analysis Methods 0.000 claims abstract description 8
- 238000000611 regression analysis Methods 0.000 claims abstract description 8
- 238000012300 Sequence Analysis Methods 0.000 claims abstract description 7
- 230000002159 abnormal effect Effects 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000012986 modification Methods 0.000 claims description 13
- 230000004048 modification Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 5
- 230000001174 ascending effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000002547 anomalous effect Effects 0.000 claims description 2
- 238000012937 correction Methods 0.000 description 14
- 238000000034 method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013441 quality evaluation Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Remote Sensing (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种能源规划数据管理系统,通过存储单元根据所述数据表单规范将能源规划数据存储至数据表,从而实现将能源规划数据自动录入数据库中;通过搜索单元创建数据表的索引,可根据查询指令中的查询字段快速确定查询字段在所述目标数据表中的目标位置,从而实现准确且快速查询数据;通过数据质量分析模块从数据完整性、数据规范性、数据一致性、数据准确性和数据及时性对能源规划数据进行数据质量维度评价,从而提高了数据质量分析能力;挖掘单元通过回归分析组件、分类分析组件、聚类分析组件、关联规则分析组件、时间序列分析组件和神经网络分析组件中的一种或多种组合对能源规划数据进行数据挖掘,解决了挖掘组件单一的问题。
Description
技术领域
本发明涉及电子数据管理技术领域,尤其涉及一种能源规划数据管理系统。
背景技术
为了供电和电力建设能够有效进行,电力公司经常需要根据实际需求开展能源规划工作,在能源规划工作中,能源规划数据管理是重要的一步。
随着电力企业的规模越来越大,电力企业对其能源规划数据管理的需求也越来越大。目前,能源规划数据管理系统已经趋向于信息化和智能化发展。现有技术中,能源规划数据管理系统通过采用信息化技术对电力企业的项目信息进行管理,但是,在能源规划数据管理系统中,通常是需要专人或者专门的部门对项目信息进行录入存储到数据库中,不仅易出错而且耗时长、浪费大量人力资源;同时,数据库仅仅起到存储的功能,用户在进行能源规划时,往往采用手动查阅数据库中存储的数据,难以准确查询所需数据。此外,数据库中的能源规划数据质量分析能力差,提供的挖掘组件单一,对能源规划的准确性和速度造成影响,难以满足用户需求。
发明内容
本发明的目的在于提供一种能源规划数据管理系统,用于解决目前的能源规划数据管理系统只能人工录入数据库、难以准确查询数据、数据质量分析能力差以及挖掘组件单一的技术问题。
为了克服上述现有技术中的缺陷,本发明公开了一种能源规划数据管理系统,包括:
存储单元及分别与所述存储单元连接的搜索单元、分析单元及挖掘单元;
所述存储单元,用于分别根据第一映射关系库、第二映射关系库识别采集的能源规划数据的数据类别、数据表单规范,并根据所述数据表单规范将所述能源规划数据存储在对应的数据表中;
所述搜索单元,用于根据数据表主键、字段的历史查询频率创建数据表索引,进而创建数据表索引集;并根据查询指令在所述索引集中分别查询相应的数据表主键、数据表字段,以确定目标数据表的索引、查询指令的字段所在位置;
所述分析单元,包括数据质量分析模块和数据特征分析模块;其中,
所述数据质量分析模块,用于根据预设校验规则对所述能源规划数据进行数据质量维度评价,并生成数据质量结果;所述数据质量维度包括数据完整性、数据规范性、数据一致性、数据准确性及数据及时性;
所述数据特征分析模块,用于对所述能源规划数据的总体特征进行分析后输出总体特征结果,所述总体特征结果包括数字特征结果、文字特征结果和日期特征结果;
所述挖掘单元包括多个挖掘组件,用于根据基于挖掘组件指令选择的挖掘组件对所述能源规划数据进行数据挖掘,以获得所述能源规划数据的趋势数据及属性数据,所述多个挖掘组件包括回归分析组件、分类分析组件、聚类分析组件、关联规则分析组件、时间序列分析组件和神经网络分析组件中的一种或多种组合。
进一步地,所述数据表单规范包括数据库命名规范、数据库表命名规范和数据库字段命名规范。
进一步地,所述数据质量分析模块,还用于基于样本数据集、所述校验规则进行模型训练,生成数据预测算法模型;通过所述算法模型对所述能源规划数据进行质量维度评价,并根据评价结果判断所述能源规划数据是否异常。
进一步地,所述数据质量分析模块,还用于当所述数据质量结果为异常时,生成告警信息以及对应的异常数据报表。
进一步地,所述分析单元,还包括数据修正模块,用于根据所述预设校验规则对所述能源规划数据进行校验,以获得待修正能源规划数据及对应的修正方案并根据所述修正方案对所述待修正能源规划数据进行修正。
进一步地,所述数据特征分析模块,还用于对所述能源规划数据中的数字特征数据进行分析,以获得所述数字特征数据的平均数、中位数、众数、最小值、最大值、50分位值、最晚日期、最早日期、时间段内数据量和含目标关键文字的数据总量值。
进一步地,所述挖掘组件,还用于根据预设的聚类分析算法对所述能源规划数据进行聚类分析,以确定孤立的能源规划数据并进行清除。
进一步地,所述挖掘组件,还用于通过基于分位数的识别、基于距离的识别、基于密度的识别和基于分布的识别中的一种识别方式或多种组合识别方式识别异常数据。
进一步地,所述能源规划数据管理系统,还包括展示单元,用于接收并显示所述能源规划数据的趋势数据及属性数据。
进一步地,所述展示单元包括图表模块、排行榜模块、对标图表模块、指标图模块和二维地图模块;
所述图表模块,用于将所述能源规划数据的趋势数据及属性数据以折线图、条形图、饼状图和柱状图中的任一方式或多种组合方式进行显示;
所述排行榜模块,用于将所述能源规划数据的趋势数据及属性数据以升序或降序的方式进行显示;
所述对标图表模块,用于以预设的数据维度和业务指标对所述能源规划数据进行横向对比并进行显示;
所述指标图模块,用于根据预设数据指标将所述能源规划数据进行对比,并以指标图显示对比结果;
所述二维地图模块,用于将所述能源规划数据以热度图层、图片图层、切片图层和矢量图层中的一种或多种叠加图层,并通过GIS地图进行显示。
与现有技术相比,本发明的有益效果在于:
本发明通过存储单元,能够接收预先采集的能源规划数据和对应的来源信息,并在接收后根据所述数据表单规范将能源规划数据存储至数据表,从而实现将能源规划数据自动录入数据库中,无需人工录入;通过搜索单元创建数据表的索引,进而创建数据表的索引集,可根据查询指令中的查询字段快速确定查询字段在所述目标数据表中的目标位置,从而实现准确且快速查询数据;通过数据质量分析模块从数据完整性、数据规范性、数据一致性、数据准确性和数据及时性对能源规划数据进行数据质量维度评价,从而提高了数据质量分析精度,提高了数据质量分析能力;通过挖掘单元根据挖掘指令通过回归分析组件、分类分析组件、聚类分析组件、关联规则分析组件、时间序列分析组件和神经网络分析组件中的一种或多种组合对能源规划数据进行数据挖掘,从而提高数据挖掘多样性,解决了挖掘组件单一的问题。
附图说明
图1为本发明某一实施例提供的能源规划数据管理系统的结构示意图;
图2为本发明又一实施例提供的能源规划数据管理系统的结构示意图;
图3为本发明又一实施例提供的能源规划数据管理系统中展示单元的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,本发明某一实施例提供了一种能源规划数据管理系统,包括:存储单元100、搜索单元200、分析单元300和挖掘单元400,存储单元100分别与搜索单元200、分析单元300以及挖掘单元400连接;
存储单元100用于接收预先采集的能源规划数据和对应的来源信息,还用于根据预先存储的能源规划数据来源信息与数据类别的映射关系库识别预先获取的能源规划数据的数据类别,还用于根据预先存储的数据类别与数据表单规范的映射关系库识别能源规划数据的数据表单规范,还用于根据数据表单规范将能源规划数据进行处理从而将能源规划数据存储至数据表单规范对应的数据表中,相比于现有技术中人工简单分类后存储数据的方式,存储单元100能够自动识别能源规划数据的类别,并将其存储至具有数据表单规范的数据表中,存储速度快、识别、分类准确,便于搜索;
搜索单元200用于根据预先获取的数据表主键和预先获取的数据表字段的历史查询频率创建数据表的索引,进而创建数据表的索引集,还用于根据预先获取的查询指令中的查询字段在索引集中查询与查询字段相应的数据表主键从而确定目标数据表的索引,还用于根据查询字段和目标数据表的索引在目标数据表查询对应的数据表字段,从而确定查询字段在目标数据表中的目标位置,通过建立数据表的索引集,并根据查询指令创建能够在索引表中快速查找目标数据表字段的索引方式提高了数据查询速度,无需在数据库中手动查询,提高了数据查询效率;
分析单元300包括数据质量分析模块301和数据特征分析模块302;
数据质量分析模块301用于根据预设的数据质量校验规则对预先采集的能源规划数据进行数据质量维度评价,数据质量维度包括数据完整性、数据规范性、数据一致性、数据准确性和数据及时性,通过数据质量分析的方式去除了异常的数据,相较于人工分拣或简单筛选的方式提高了数据质量分析精度和数据质量分析能力;
数据特征分析模块302用于对预先采集的能源规划数据的总体特征进行分析后输出总体特征结果,总体特征结果包括数字特征结果、文字特征结果和日期特征结果;
挖掘单元400包括多个挖掘组件,用于根据预先输入的挖掘组件指令选择对应的挖掘组件,还用于根据挖掘组件对预先采集的能源规划数据进行数据挖掘,以得出预先采集的能源规划数据的趋势及其属性数据,多个挖掘组件包括回归分析组件、分类分析组件、聚类分析组件、关联规则分析组件、时间序列分析组件和神经网络分析组件中的一种或多种组合,利用多种数据挖掘组件对能源规划数据进行挖掘,能够满足用户的不同的挖掘需求,提高了数据挖掘多样性,解决了挖掘组件单一的问题。
在本实施例中,通过存储单元100能够接收预先采集的能源规划数据和对应的来源信息后,根据数据表单规范将能源规划数据存储至数据表,从而实现将能源规划数据自动录入数据库中,无需人工录入;通过搜索单元200创建数据表的索引,进而创建数据表的索引集,可根据查询指令中的查询字段快速确定查询字段在目标数据表中的目标位置,从而实现准确且快速查询数据;通过数据质量分析模块301从数据完整性、数据规范性、数据一致性、数据准确性和数据及时性对能源规划数据进行数据质量维度评价,从而提高了数据质量分析精度,提高了数据质量分析能力;通过挖掘单元400根据挖掘指令通过回归分析组件、分类分析组件、聚类分析组件、关联规则分析组件、时间序列分析组件和神经网络分析组件中的一种或多种组合对能源规划数据进行数据挖掘,从而提高数据挖掘多样性,解决了挖掘组件单一的问题。
请参阅图2,本发明发明某一实施例提供了一种能源规划数据管理系统,包括:存储单元100、搜索单元200、分析单元300、挖掘单元400和展示单元500,存储单元100分别与搜索单元200、分析单元300以及挖掘单元400连接,挖掘单元400与展示单元500连接;
存储单元100用于接收预先采集的能源规划数据和对应的来源信息,还用于根据预先存储的能源规划数据来源信息与数据类别的映射关系库识别预先获取的能源规划数据的数据类别,还用于根据预先存储的数据类别与数据表单规范的映射关系库识别能源规划数据的数据表单规范,还用于根据数据表单规范将能源规划数据进行处理从而将能源规划数据存储至数据表单规范对应的数据表中;
需要说明的是,本实施例中的存储单元100具有自动接收数据功能,当存储单元100接收预先采集的能源规划数据和对应的来源信息,其中,能源规划数据包括能源内部数据,即能源部门内部大数据平台存储的数据,如历史负荷数据、电量数据、电源出力数据、高峰时刻数据;能源规划数据还包括能源外部数据,即能源部门外部网址发布的与能源信息相关的数据,如省/市天气历史数据、省及地市人口数据、省及地市经济数据、用地数据、节假日数据、电价、其他地区/省/市/国家类比数据、全国及全省能源电源数据。同时,来源信息包括能源规划数据对应的功能和业务归类。
其中,数据表单规范包括数据库命名规范、数据库表命名规范和数据库字段命名规范,根据数据表单规范对能源规划数据进行规范处理,从而将能源规划数据存储于数据表中。
在一个具体实施例中,通过将数据表单规范编写或者转换成相应的SQL数据插入语句,执行SQL数据插入语句将能源规划数据存储至目标数据表中。
搜索单元200用于根据预先获取的数据表主键和预先获取的数据表字段的历史查询频率创建数据表的索引,进而创建数据表的索引集,还用于根据预先获取的查询指令中的查询字段在索引集中查询与查询字段相应的数据表主键从而确定目标数据表的索引,还用于根据查询字段和目标数据表的索引在目标数据表查询对应的数据表字段,从而确定查询字段在目标数据表中的目标位置;
可以理解的是,在创建数据表时,可以将特定字段确定为主键,同时,具有主键功能的字段是数据记录的唯一标识。
在一个具体实施例中,搜索单元200基于预设的搜索插件gptext的create_index语句,根据预先获取的数据表主键和预先获取的数据表字段的历史查询频率给数据表创建索引,根据所有的数据表的索引创建索引集,然后,将该索引集进行存储。
在查询数据时,搜索单元200根据查询指令中的查询目标字段和查询条件字段根据对应的主键迅速定位到索引集中指定的索引,根据索引定位到数据表中的目标字段。
在本实施例中,搜索单元200包括搜索界面,搜索界面用于用户输入查询指令,搜索界面包括文字输入入口和语音输入入口。
可以理解的是,通过在文字输入入口输入文字字段或在语音输入入口输入语音均可以完成输入查询指令以获得目标数据。
分析单元300包括数据质量分析模块301、数据特征分析模块302和数据修正模块303;
数据质量分析模块301用于根据预设的数据质量校验规则对预先采集的能源规划数据进行数据质量维度评价,数据质量维度包括数据完整性、数据规范性、数据一致性、数据准确性和数据及时性;
可以理解的是,本实施例通过数据质量校验规则对数据的数据完整性、数据规范性、数据一致性、数据准确性和数据及时性多个数据质量维度进行评价,从而可以获得具有更高质量的数据。在一个具体实施例中,如表1所示,表1为对能源外部数据进行评价的结果。
表1依据数据质量校验规则得到的能源规划数据评价表
在本实施例中,数据质量分析模块301还用于根据预设的质量校验规则对预先采集的能源规划数据进行数据质量维度评价从而得出数据质量结果,还用于当判定数据质量结果为异常时,则生成告警信息以及对应的异常数据报表。
可以理解的是,根据质量校验规则可以对数据质量结果判定是否异常,当判定为异常时,则生成相应的告警信息和对应的异常数据报表。
在本实施例中,数据质量分析模块301基于样本数据集、质量校验规则进行模型训练生成数据预测算法模型,通过数据预测算法模型对能源规划数据进行质量维度评价,根据质量维度评价判断能源规划数据是否异常。其中,基于能源规划数据的样本数据集进行机器学习算法训练生成数据预测算法模型,该样本数据集中存储有多个能源规划数据以及每个能源规划数据的质量维度评价结果(满足或不满足的质量校验规则)。并在训练生成数据预测算法模型时对该数据预测算法模型的预测结果进行准确率判断,在准确率大于预设值如90%时确定模型训练完成。
数据质量分析模块301在获取需做质量分析的能源规划数据的数据集后,通过数据预测算法模型生成该能源规划数据的质量评价结果,判断该质量评价结果是否满足预设的质量评价结果,若不满足,则确定该能源规划数据的数据质量结果异常。如预设质量评价结果为不存在异常值或缺失值,则确定数据质量结果正常。
数据修正模块303,用于根据预设的质量校验规则对能源规划数据进行校验,从而获得待修正的能源规划数据,还用于根据预设的质量校验规则获得待修正的能源规划数据对应的预设数据修正方案,还用于根据预设数据修正方案对待修正的能源规划数据进行修正,其中,预设的质量校验规则中存储有每一项质量校验规则对应的预设数据修正方案,获取待修正的能源规划数据后,将其中不满足质量校验规则的数据与预设数据修正方案进行匹配,从而确定出待修正数据的修正方案。
在本实施例中,数据修正模块303基于预设的数据修复样本集进行机器学习训练生成数据修复算法模型,该数据修复样本集包括不同数据类别的待修正的能源规划数据、而待修正能源规划数据对应的预设数据修正方案以及根据预设修正方案修正后的数据。其中,在进行机器学习训练时,还可以对生成的数据修复算法模型的准确率进行判断,若准确率不满足预设要求如95%,则继续进行训练,直至满足预设要求。
数据修正模型303接收数据质量分析模块301输入的待修正的能源规划数据或用户输入的能源规划数据的异常数据集,并通过数据修复算法模型针对异常数据进行修复以生成新的满足质量校验规则的能源规划数据以实现数据缺失的填补。
在上述实施例中,使用的机器学习算法可以为决策树算法、朴素贝叶斯分类算法、最小二乘法、逻辑回归算法、支持向量机算法、集成方法中的任一种。
在一个具体实施例中,质量校验规则如空值检查,即对数据表中能源规划数据的某一字段列进行空值查询,如果出现空值,则判定该字段为待修正的能源规划数据。
在一个具体实施例中,通过质量校验规则获取到与待修正的能源规划数据关联的预设数据修正方案,如对待修正的能源规划数据缺失值处理时,可采用均值/中位数/众数插补、固定值修正、最近临插补、回归方法、插值法、和删除法中的任一种修正方案进行修正处理;又如对待修正的能源规划数据异常值处理时,可采用删除法和替换法的任一种修正方案进行修正处理。
数据特征分析模块302用于对预先采集的能源规划数据的总体特征进行分析后输出总体特征结果,总体特征结果包括数字特征结果、文字特征结果和日期特征结果;
在本实施例中,通过数据特征分析模块302对预先采集的能源规划数据的总体特征进行分析后输出总体特征结果后,可以通过编辑SQL语句的”like”模糊查询到目标特征内容,或通过编辑SQL语句的”=”精确查询到目标特征内容。
在一个具体实施例中,数据特征分析模块302用于对预先采集的能源规划数据中的数字特征数据进行分析,从而获得数字特征数据的平均数、中位数、众数、最小值、最大值、50分位值、最晚日期、最早日期、时间段内数据量和含目标关键文字的数据总量值。
挖掘单元400包括多个挖掘组件,用于根据预先输入的挖掘组件指令选择对应的挖掘组件,还用于根据挖掘组件对预先采集的能源规划数据进行数据挖掘,以得出预先采集的能源规划数据的趋势及其属性数据,多个挖掘组件包括回归分析组件、分类分析组件、聚类分析组件、关联规则分析组件、时间序列分析组件和神经网络分析组件中的一种或多种组合。
在本实施例中,挖掘组件用于根据预设的聚类分析算法对预先采集的能源规划数据进行聚类分析,从而确定孤立的能源规划数据,还用于清除孤立的能源规划数据。
需要说明的是,挖掘组件通过python中的聚类分析算法进行聚类分析,使得相似或相邻数据聚合形成聚类集合,而在聚类集合之外的数据即可被认为是孤立的能源规划数据,通过挖掘组件对孤立的能源规划数据进行清除。
在本实施例中,挖掘组件用于通过基于分位数的识别、基于距离的识别、基于密度的识别和基于分布的识别中的一种识别方式或多种组合识别方式识别异常数据。
具体地,基于分位数的识别方式:通过python中的分位数识别算法分析得到某个数据集的上下四分位数和四分位距,通过计算得出上四分位与1.5倍的四分位距的之和、下四分位与1.5倍的四分位距的之差后,遍历数据表中的每个数据,当超过上四分位与1.5倍的四分位距的之和或下四分位与1.5倍的四分位距的之差的数据则归为异常数据。
基于距离的识别方式:首先,设定K距离的正常数据阈值,再计算目标数据对象与K距离内的数据之和以及与K距离内的数据之差,当目标数据对象与距离内的数据之和越小,则异常分越低;当目标数据对象与距离内的数据之和越大,则异常分越大。当异常分高于正常数据阈值时,则判定对应的目标数据对象为异常数据。
基于密度的识别方式:基于DBSCAN聚类方法将数据点划分到cluster中,当有数据划点划分不到任何一个cluster中,则为异常数据。
基于分布的识别方式:假设给定的数据集服从一个随机分布模型,将与随机分布模型不一致的样本视为异常样本。其中,最常用的两种分布模型是一元正态分布模型和多元正态分布模型。
展示单元500用于接收多个挖掘组件对预先采集的能源规划数据进行数据挖掘得出的预先采集的能源规划数据的趋势及其属性数据,还用于显示预先采集的能源规划数据的趋势及其属性数据。
在本实施例中,如图3所示,展示单元500包括图表模块501、排行榜模块502、对标图表模块503、指标图模块504和二维地图模块505;
图表模块501用于将预先采集的能源规划数据的趋势及其属性数据以折线图、条形图、饼状图和柱状图中的任一方式或多种组合方式进行显示;
排行榜模块502用于将预先采集的能源规划数据的趋势及其属性数据以升序或降序的方式进行显示;
可以理解的是,通过挖掘单元可以获取能源规划数据的统计量和统计率,通过排行榜模块502对统计量和统计率以升序或降序的方式进行排序后显示出来。
对标图表模块503用于以预设的数据维度和业务指标对预先采集的能源规划数据进行横向对比从而显示出来;
可以理解的是,基于现有的基础数据的数据维度和业务指标进行来设置,其中,根据实际需求和数据表结构来确定能源规划数据的数据维度,例如时间、地域、数据等,而业务指标可参考能源规划数据的数据清单或数据表来确定。
在一个具体实施例中,将地域可以作为维度,再以用电量可以作为各个地域的指标,通过横向对比各个地域的用电量情况;再将用电量情况横向对比的结果显示出来,其中,显示方式可以采用扇形对标图表和长方形对标图表等。
指标图模块504用于根据预设的数据指标将预先采集的能源规划数据进行对比从而获得对比结果,还用于将对比结果以指标图进行显示;
可以理解的是,通过设置数据指标后,指标图模块504可以展示能源规划数据与数据指标的对比结果,以直观的展示KPI完成情况。
二维地图模块505用于将预先采集的能源规划数据以热度图层、图片图层、切片图层和矢量图层中的一种或多种叠加图层通过GIS地图进行显示。
需要说明的是,本实施例中的二维地图模块505以热度图层、图片图层、切片图层和矢量图层中的一种或多种叠加图层过GIS地图集成来呈现,其中,GIS地图包括散点图、热力图、飞线图、折线图和区块图,并结合数据特点和用户需求,选择相应的图形展示能源电源规划数据,如以时间维度来统计省级统调数据以折线图来展示,从而可直观看到数据随时间变化的趋势。
在本实施例中,通过存储单元100能够接收预先采集的能源规划数据和对应的来源信息后,根据数据表单规范将能源规划数据存储至数据表,从而实现将能源规划数据自动录入数据库中,无需人工录入;通过搜索单元200创建数据表的索引,进而创建数据表的索引集,可根据查询指令中的查询字段快速确定查询字段在目标数据表中的目标位置,从而实现准确且快速查询数据;通过数据质量分析模块301从数据完整性、数据规范性、数据一致性、数据准确性和数据及时性对能源规划数据进行数据质量维度评价,从而提高了数据质量分析精度,提高了数据质量分析能力;通过挖掘单元400根据挖掘指令通过回归分析组件、分类分析组件、聚类分析组件、关联规则分析组件、时间序列分析组件和神经网络分析组件中的一种或多种组合对能源规划数据进行数据挖掘,从而提高数据挖掘多样性,解决了挖掘组件单一的问题;通过数据修正模块303对待修正能源规划数据进行修正以提高数据准确性;通过展示单元500对能源规划数据进行多样展示。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种能源规划数据管理系统,其特征在于,包括:存储单元、搜索单元、分析单元和挖掘单元,所述存储单元分别与所述搜索单元、分析单元以及挖掘单元连接;
所述存储单元用于接收预先采集的能源规划数据和对应的来源信息,还用于根据预先存储的能源规划数据来源信息与数据类别的映射关系库识别所述预先获取的能源规划数据的数据类别,还用于根据预先存储的数据类别与数据表单规范的映射关系库识别所述能源规划数据的数据表单规范,还用于根据所述数据表单规范将所述能源规划数据进行处理从而将所述能源规划数据存储至所述数据表单规范对应的数据表中;其中,所述数据表单规范包括数据库命名规范、数据库表命名规范和数据库字段命名规范;
所述搜索单元用于根据预先获取的数据表主键和预先获取的数据表字段的历史查询频率创建所述数据表的索引,进而创建所述数据表的索引集,还用于根据预先获取的查询指令中的查询字段在所述索引集中查询与所述查询字段相应的数据表主键从而确定目标数据表的索引,还用于根据所述查询字段和所述目标数据表的索引在所述目标数据表查询对应的数据表字段,从而确定所述查询字段在所述目标数据表中的目标位置;
所述分析单元包括数据质量分析模块和数据特征分析模块;
所述数据质量分析模块用于根据预设的数据质量校验规则对所述预先采集的能源规划数据进行数据质量维度评价,所述数据质量维度包括数据完整性、数据规范性、数据一致性、数据准确性和数据及时性;
所述数据特征分析模块用于对所述预先采集的能源规划数据的总体特征进行分析后输出总体特征结果,所述总体特征结果包括数字特征结果、文字特征结果和日期特征结果;
所述挖掘单元包括多个挖掘组件,用于根据预先输入的挖掘组件指令选择对应的挖掘组件,还用于根据所述挖掘组件对所述预先采集的能源规划数据进行数据挖掘,以得出所述预先采集的能源规划数据的趋势及其属性数据,所述多个挖掘组件包括回归分析组件、分类分析组件、聚类分析组件、关联规则分析组件、时间序列分析组件和神经网络分析组件中的一种或多种组合。
2.根据权利要求1所述的能源规划数据管理系统,其特征在于,所述数据质量分析模块还用于根据预设的质量校验规则对所述预先采集的能源规划数据进行数据质量维度评价从而得出数据质量结果,还用于当判定所述数据质量结果为异常,则生成告警信息以及对应的异常数据报表。
3.根据权利要求1或2所述的能源规划数据管理系统,其特征在于,所述分析单元还包括数据修正模块,用于根据所述预设的质量校验规则对所述能源规划数据进行校验,从而获得待修正的能源规划数据,还用于根据所述预设的质量校验规则获得所述待修正的能源规划数据对应的预设数据修正方案,还用于根据预设数据修正方案对所述待修正的能源规划数据进行修正。
4.根据权利要求2所述的能源规划数据管理系统,其特征在于,所述数据质量分析模块基于样本数据集、质量校验规则进行模型训练生成数据预测算法模型,通过所述数据预测算法模型对所述能源规划数据进行质量维度评价,根据所述质量维度评价判断所述能源规划数据是否异常。
5.根据权利要求1所述的能源规划数据管理系统,其特征在于,所述数据特征分析模块用于对所述预先采集的能源规划数据中的数字特征数据进行分析,从而获得所述数字特征数据的平均数、中位数、众数、最小值、最大值、50分位值、最晚日期、最早日期、时间段内数据量和含目标关键文字的数据总量值。
6.根据权利要求1所述的能源规划数据管理系统,其特征在于,所述挖掘组件用于根据预设的聚类分析算法对所述预先采集的能源规划数据进行聚类分析,从而确定孤立的能源规划数据,还用于清除所述孤立的能源规划数据。
7.根据权利要求1或6所述的能源规划数据管理系统,其特征在于,所述挖掘组件用于通过基于分位数的识别、基于距离的识别、基于密度的识别和基于分布的识别中的一种识别方式或多种组合识别方式识别异常数据。
8.根据权利要求1所述的能源规划数据管理系统,其特征在于,还包括展示单元,所述展示单元用于接收所述多个挖掘组件对所述预先采集的能源规划数据进行数据挖掘得出的所述预先采集的能源规划数据的趋势及其属性数据,还用于显示所述预先采集的能源规划数据的趋势及其属性数据。
9.根据权利要求1所述的能源规划数据管理系统,其特征在于,所述展示单元包括图表模块、排行榜模块、对标图表模块、指标图模块和二维地图模块;
所述图表模块用于将所述预先采集的能源规划数据的趋势及其属性数据以折线图、条形图、饼状图和柱状图中的任一方式或多种组合方式进行显示;
所述排行榜模块用于将所述预先采集的能源规划数据的趋势及其属性数据以升序或降序的方式进行显示;
所述对标图表模块用于以预设的数据维度和业务指标对所述预先采集的能源规划数据进行横向对比从而显示出来;
所述指标图模块用于根据预设的数据指标将所述预先采集的能源规划数据进行对比从而获得对比结果,还用于将所述对比结果以指标图进行显示;
所述二维地图模块用于将所述预先采集的能源规划数据以热度图层、图片图层、切片图层和矢量图层中的一种或多种叠加图层通过GIS地图进行显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110261111.8A CN112860769B (zh) | 2021-03-10 | 2021-03-10 | 一种能源规划数据管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110261111.8A CN112860769B (zh) | 2021-03-10 | 2021-03-10 | 一种能源规划数据管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112860769A CN112860769A (zh) | 2021-05-28 |
CN112860769B true CN112860769B (zh) | 2023-01-20 |
Family
ID=75993943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110261111.8A Active CN112860769B (zh) | 2021-03-10 | 2021-03-10 | 一种能源规划数据管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112860769B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806336B (zh) * | 2021-09-30 | 2024-07-30 | 北京蓝海医信科技有限公司 | 一种数据质量评估方法及系统 |
CN115018182B (zh) * | 2022-06-28 | 2024-02-09 | 广东电网有限责任公司 | 一种通信电路的规划管理方法、装置、存储介质以及系统 |
CN116522261B (zh) * | 2023-05-06 | 2023-12-22 | 北京瀚海蓝山智能科技有限公司 | 一种基于大数据的风险信息监控方法及系统 |
CN117666971B (zh) * | 2024-01-31 | 2024-04-30 | 之江实验室 | 一种工业领域的数据存储方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776927A (zh) * | 2016-12-01 | 2017-05-31 | 国网山东省电力公司滨州供电公司 | 一种云信息服务平台的电力能源预警系统 |
CN107545349A (zh) * | 2016-06-28 | 2018-01-05 | 国网天津市电力公司 | 一种面向电力大数据的数据质量分析评价模型 |
CN108964269A (zh) * | 2018-07-03 | 2018-12-07 | 沈阳电电科技有限公司 | 配电网运维与综合管理系统 |
CN109726205A (zh) * | 2018-12-26 | 2019-05-07 | 国电南瑞科技股份有限公司 | 一种电力系统安全稳定分析数据存储系统及存储方法 |
CN109829125A (zh) * | 2019-03-01 | 2019-05-31 | 国网吉林省电力有限公司白城供电公司 | 展示电网调度运行数据的用户管理平台 |
CN110175788A (zh) * | 2019-05-31 | 2019-08-27 | 国网上海市电力公司 | 一种智慧城市能源云平台 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012078747A1 (en) * | 2010-12-08 | 2012-06-14 | YottaStor | Methods, system, and apparatus for enterprise wide storage and retrieval of large amounts of data |
US8788525B2 (en) * | 2012-09-07 | 2014-07-22 | Splunk Inc. | Data model for machine data for semantic search |
CN105260404B (zh) * | 2015-09-22 | 2019-03-26 | 北京百度网讯科技有限公司 | 存储时间序列数据的方法和装置 |
CN105354251B (zh) * | 2015-10-19 | 2018-10-30 | 国家电网公司 | 电力系统中基于Hadoop的电力云数据管理索引方法 |
CN105405067B (zh) * | 2015-11-25 | 2019-08-20 | 国网安徽省电力公司经济技术研究院 | 一种基于两层规划的多阶段主动配电网自愈规划方法 |
CN106202345A (zh) * | 2016-07-04 | 2016-12-07 | 吴本刚 | 一种基于数据挖掘的故障诊断装置 |
CN106776823B (zh) * | 2016-11-25 | 2018-12-07 | 华为技术有限公司 | 一种时序数据管理方法、设备和装置 |
CN107679146A (zh) * | 2017-09-25 | 2018-02-09 | 南方电网科学研究院有限责任公司 | 电网数据质量的校验方法和系统 |
US10838964B2 (en) * | 2018-03-30 | 2020-11-17 | International Business Machines Corporation | Supporting a join operation against multiple NoSQL databases |
CN109359950B (zh) * | 2018-10-31 | 2021-07-02 | 国网河南省电力公司濮阳供电公司 | 一种电网监控信息全过程管控的方法 |
CN111860955A (zh) * | 2020-06-18 | 2020-10-30 | 国家电网有限公司 | 基于大数据的电网规划精益分析方法 |
-
2021
- 2021-03-10 CN CN202110261111.8A patent/CN112860769B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545349A (zh) * | 2016-06-28 | 2018-01-05 | 国网天津市电力公司 | 一种面向电力大数据的数据质量分析评价模型 |
CN106776927A (zh) * | 2016-12-01 | 2017-05-31 | 国网山东省电力公司滨州供电公司 | 一种云信息服务平台的电力能源预警系统 |
CN108964269A (zh) * | 2018-07-03 | 2018-12-07 | 沈阳电电科技有限公司 | 配电网运维与综合管理系统 |
CN109726205A (zh) * | 2018-12-26 | 2019-05-07 | 国电南瑞科技股份有限公司 | 一种电力系统安全稳定分析数据存储系统及存储方法 |
CN109829125A (zh) * | 2019-03-01 | 2019-05-31 | 国网吉林省电力有限公司白城供电公司 | 展示电网调度运行数据的用户管理平台 |
CN110175788A (zh) * | 2019-05-31 | 2019-08-27 | 国网上海市电力公司 | 一种智慧城市能源云平台 |
Also Published As
Publication number | Publication date |
---|---|
CN112860769A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112860769B (zh) | 一种能源规划数据管理系统 | |
JP4358475B2 (ja) | 信用評価システム | |
CN105868373B (zh) | 电力业务信息系统关键数据处理方法及装置 | |
CN106570778B (zh) | 一种基于大数据的数据集成与线损分析计算的方法 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
US20150154706A1 (en) | Systems and methods for financial asset analysis | |
CN112148760B (zh) | 大数据的筛选方法及装置 | |
US20210090101A1 (en) | Systems and methods for business analytics model scoring and selection | |
CN111695979A (zh) | 一种原材料与成品的关系分析方法、装置及设备 | |
US10803124B2 (en) | Technological emergence scoring and analysis platform | |
CN117453805B (zh) | 一种不确定性数据的可视化分析方法 | |
CN112950086B (zh) | 民航企事业单位绩效考核指标体系的动态构建方法及系统 | |
CN106779245B (zh) | 基于事件的民航需求预测方法和装置 | |
CN117171145B (zh) | 一种企业管理系统数据的分析处理方法、设备及存储介质 | |
CA3160715A1 (en) | Systems and methods for business analytics model scoring and selection | |
CN112966897A (zh) | 一种基于维修平台的多维度数据分析方法 | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
CN116563028A (zh) | 基于ai的报送数据校验方法、系统及存储介质 | |
CN114722789B (zh) | 数据报表集成方法、装置、电子设备及存储介质 | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN116308158B (zh) | 一种国有资产监督管理系统 | |
CN117764726B (zh) | 基于大数据与人工智能的不动产金融风险防控方法及系统 | |
CN113836313B (zh) | 一种基于图谱的审计信息识别方法与系统 | |
Zarmehri et al. | Improving data mining results by taking advantage of the data warehouse dimensions: a case study in outlier detection | |
CN115438036B (zh) | 电网统一指标库数据冗余处理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |