CN114238432A - 一种基于关联规则挖掘的电力营销辅助决策方法及系统 - Google Patents
一种基于关联规则挖掘的电力营销辅助决策方法及系统 Download PDFInfo
- Publication number
- CN114238432A CN114238432A CN202111387766.6A CN202111387766A CN114238432A CN 114238432 A CN114238432 A CN 114238432A CN 202111387766 A CN202111387766 A CN 202111387766A CN 114238432 A CN114238432 A CN 114238432A
- Authority
- CN
- China
- Prior art keywords
- data
- mining
- association rule
- algorithm
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000003860 storage Methods 0.000 claims abstract description 10
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000007418 data mining Methods 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000011425 standardization method Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000011161 development Methods 0.000 abstract description 6
- 239000000344 soap Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000009412 basement excavation Methods 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003631 expected effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 206010033799 Paralysis Diseases 0.000 description 1
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关联规则挖掘的电力营销辅助决策方法及系统。本发明方法采用的技术方案为:在控制界面里点击所需要的内容,请求获取选取控制界面里的内容,在Spark平台里,运用RDD并行编程模型,对原始的电力营销数据进行清理和提取,数据通过Z‑score标准化和FCM聚类算法进行预处理,并在关联规则挖掘技术上引入稀疏矩阵存储方法,利用改进后的FFP‑Growth算法对预处理的数据进行关联规则挖掘,并对挖掘结果进行筛选和评估,输出请求获取的内容,使用SOAP协议调用输出的内容,控制界面对获取的内容进行解析后显示,供工作人员进行参考,满足电力营销发展的市场化需求的问题。
Description
技术领域
本发明涉及电力营销数据挖掘技术领域,特别是涉及一种基于关联规则挖掘的电力营销辅助决策方法及系统。
背景技术
由于近些年我国电力企业的快速发展,电力行业进入到市场化改革的关键时段,在改革中逐渐形成了一种以市场为风向标的新机制,在电力企业内部以营销为重点,在对待客户中以服务为基础。
但是随着电网数字化、智能化的发展,数据呈现一种爆发增长的趋势,这使得决策者在进行判断时更具难度。大量的数据会造成过去陈旧的数据分析系统瘫痪,并且不能够发现在繁多数据中隐藏着的决策信息,既浪费了时间又不能保证正确的决策。
电力系统是一个大型且复杂的系统,它实现电力各方面的平衡,包括生产、传输、分配和消耗。信息通信系统与智能电网的结合,已经成为电力系统高效运行管理的必要途径。在智能电网中,打通数据之间的链接,使之成为一个整体,才能体现出数据的价值。可是现有电力系统的平台在面对大数据时很吃力,在数据交换、存储、展现及处理这几方面都无法应对海量数据。并且,昂贵的电力信息系统平台还存在成本过高、性能不达标等问题。通过简单的升级设备已经跟不上数据增长速度,进而要求平台具有扩展性。数据挖掘技术可以应对数据的飞速增长,挖掘出有价值的信息以便为电力企业部门提供增值业务,在未知的海量数据中发现新的价值联系是数据挖掘的终极目标,而数据处理能力是能否快速得到满意的结果是最关键的因素。
发明内容
本发明主要解决的技术问题是提供一种基于关联规则挖掘的电力营销辅助决策方法及系统,其利用Spark平台与关联规则挖掘技术结合的优势,根据电力企业对数据分析的实际需求,实现对电力营销数据的快速挖掘;同时,并在挖掘之前通过Z-score标准化和FCM聚类算法对数据进行预处理,进一步提高挖掘速度,解决电力营销数据数量级差别大等问题,并在关联规则挖掘技术上引入稀疏矩阵存储方法,解决内存利用率不足的问题,同时提升算法的效率,以满足当前的电力营销发展的市场化需求的问题。
为解决上述技术问题,本发明采用的一个技术方案是:一种基于关联规则挖掘的电力营销辅助决策方法,其包括以下步骤:
步骤S1:在控制界面里点击控制页面,请求获取选取控制页面里的内容;
步骤S2:在Spark平台里,运用RDD并行编程模型,对原始的电力营销数据进行清理和提取,实现数据的预处理,利用FFP-Growth算法将经过数据预处理的结果进行关联规则挖掘,并对产生的关联规则进行筛选和评估,输出请求获取的内容;
步骤S3:使用SOAP协议远程调用输出请求获取的内容,控制界面对获取的内容进行解析后显示在控制页面上。
进一步的,所述步骤S1中,所述控制界面为显示器中的浏览器界面或APP界面,点击方式为鼠标光标点击或手指触摸点击。
进一步的,所述步骤S2中,数据预处理为使用SOAP协议远程调度,将FCM聚类算法和Z-score标准化方法移植到Spark平台上,实现数据预处理,其具体步骤为:从原始文件提取聚类计算需要的数据,采用Z-score标准化方法对不同数量级连续属性的原始数据进行线性变换,采用FCM聚类算法对相同数量级连续属性的原始数据进行聚类,获得相同数量级离散化的数据,并将处理结果放入HDFS(Hadoop分布式文件系统)中储存。
进一步的,将挖掘现在产生或者历史产生的各种中间结果或最终结果数据放入到HDFS中。
进一步的,所述FFP-Growth算法是在Spark平台下基于FCM聚类算法改进的FP-Growth关联规则挖掘算法,即FFP-Growth算法将原始数据存储在稀疏矩阵中,再采用FCM聚类算法对数据进行二次分类,最后并行执行FP-Growth算法,其具体步骤为:
(1)、访问内存中的待处理数据,去除数据项中重复的部分,计算剩余数据项的支持度,并得到数据项列表F_list,并将含有支持度的数据项存在内存;
(2)、将原始数据转化为RDD结构,每个RDD包含支持度等信息,再将数据进行分组,相关数据被分为一组,数据项相应的出现次数被记录在item中,每个分组里包含一个数据项的集合Group_list,分组信息记录在一个分组表中,便于操作;
(3)、通过FCM聚类算法对包含支持度信息的数据项聚类:分别对每一个Group_list进行聚类,再将Group_list根据类别进行分组;
(4)、FFP-Growth并行化计算,即在Spark Streaming框架下进行FFP-Growth批处理计算,通过一次Map Reduce任务将传统FP-Growth算法中对各频繁项的条件FP-Tree挖掘分发到各个节点,进行本地的频繁项集挖掘;
(5)将每台设备并行化的执行结果聚合成为一个整体,集合所有数据分组的频繁项集,并计算支持度得出最终结果,并转化为电力营销系统所需要的格式。
进一步的,所述Map Reduce任务中,Map是将在各个分组中的数据项划分到合适的Group_list,数据项指向对应节点,而Reduce是FFP-Growth算法的并行化,包括建立FFP-tree、增加树头指针表、构建条件树和分别挖掘每个FFP-Tree。
进一步的,所述步骤S3中,在使用SOAP协议远程调用服务的过程中,数据被封装成XML格式,发送到数据挖掘层,返回的数据又以同样的格式传输到业务应用层,在action操作后,数据被打包成JSON格式传回到浏览器,浏览器通过解析后显示在页面上。
为解决上述技术问题,本发明采用的另一个技术方案是:一种基于关联规则挖掘的电力营销辅助决策系统,包括客户端和服务器端,且两者之间通过SOAP简单对象传输协议进行通信,其中,
客户端:负责用户和系统之间的交互,是系统对外的接口,用于用户的输入,并将输入的内容以图形化的方式显示在界面上;
服务器端:负责处理客户端用户提交的作业,处理作业执行并行化数据计算,即服务器端中装有Spark平台,对原始的电力营销数据进行清理和提取,实现数据的预处理,利用FFP-Growth算法将经过数据预处理的结果进行关联规则挖掘,并对产生的关联规则进行筛选和评估,输出用户相要的结果。
进一步的,所述服务器端包括业务应用层、数据挖掘层以及分布式计算层,其中,
业务应用层:提供各种业务逻辑,控制和调度挖掘平台层的各个模块的执行,用户在客户端中交互层提交的对数据聚类和关联规则挖掘业务在这一层被处理,使用异步调度,将已计算好的结果返回给交互层;
数据挖掘层:基于Map Reduce实现电力营销数据关联规则挖掘所需要的算法的并行化,并将设计的挖掘模块交给分布式计算层进行分布式计算,最终将结果返回给业务应用层;
分布式计算层:Spark平台提供HDFS分布式存储系统和Map Reduce的并行的处理模式。
进一步的,所述交互层包括:(1)、业务模块:得到并完成用户提交的信息查询、聚类、关联规则挖掘业务;(2)、展示模块:展示对数据预处理的结果、FFP-Growth挖掘的结果及给出的分析结果;
所述业务应用层包括:(1)、业务响应模块:通过调用底层模块完成上层提交业务;(2)、工作流模块:将具体的信息参数返回给本层的业务响应模块。
所述数据挖掘层包括:(1)、数据存储模块:将挖掘现在产生或者历史产生的各种中间结果或最终结果数据放入到HDFS中,以便其他模块使用;(2)、数据预处理模块:对HDFS中原始的电力营销数据进行清理和提取,提取聚类计算需要的数据,并调用并行的K-Means算法对连续的数据进行离散化处理,减少数据的属性值,并将处理结果也放入HDFS中,以便后续对数据进行关联规则计算;(3)、关联规则挖掘模块:利用FFP-Growth算法将经过数据预处理的结果进行关联规则挖掘,并对产生的关联规则进行筛选和评估,输出用户想要的结果。
本发明具有的有益效果是:本发明通过Z-score标准化和FCM聚类算法进行数据预处理,解决电力营销数据数量级差别大等问题,提高后续挖掘速度,并在关联规则挖掘技术上引入稀疏矩阵存储方法,利用改进后的FFP-Growth算法将经过数据预处理的结果进行关联规则挖掘,解决内存利用率不足的问题,同时提升了算法的效率,并对产生的关联规则进行筛选和评估,输出请求获取的内容,使用SOAP协议远程调用输出请求获取的内容,控制界面对获取的内容进行解析后显示在控制页面上,供工作人员进行参考,能满足当前的电力营销发展的市场化需求的问题。
其中,结合Z-score标准化和FCM聚类算法设计出新的大数据预处理流程,解决电力营销数据数量级差别大等问题,与此同时,针对FP-Growth算法中建立庞大的FP-Tree占用大量内存的问题,引入稀疏矩阵存储方法,并根据FCM聚类算法对FP-Growth进行改进,解决内存利用率不足的问题,同时提升了算法的效率。
其中,在Spark下关联规则挖掘算法的实现,将电网数据分配到各个计算机上进行分布式计算,从而提高数据的处理效率。
其中,采用稀疏矩阵存储事务集,在构建FP-tree时省去一次数据库访问,在基于Spark平台进行FP-Growth关联规则挖掘过程中节省了空间,而且运用稀疏矩阵存储数据,大大提高了内存的利用率,更重要的是提高了在海量数据下FP-Growth算法的执行速度。在关联规则挖掘过程中,利用FCM聚类算法,对事务集进行聚类,减少程序运行所需时间,减轻各节点的复合,算法的效率得以提高。
其中,采用稀疏矩阵存储频繁项集的FP-Growth算法不需要再一次扫描原数据库,只需要更新频繁项集矩阵,脱离了原数据库,使得内存利用率变得更高,减少系统负荷,并且对于存储频繁项集的稀疏矩阵,可以进一步去研究矩阵的压缩等方法来减少系统开销,也提出了通过加强矩阵的计算能力提高挖掘算法效率的新思路,针对海量的电网数据,扫描稀疏矩阵的速度明显快于扫描原数据库,简化了挖掘过程,更节省了时间。
附图说明
图1为本发明电力营销辅助决策方法的流程图;
图2为本发明电力企业营销数据预处理流程图;
图3为本发明用户用电量情况聚类结果图;
图4为本发明用户经济水平情况聚类结果图;
图5为本发明FFP-Growth算法流程图;
图6为本发明数据的链表组结构图;
图7为本发明以f为首项构造的FFPTree结构图;
图8为本发明FFP-Growth算法与FP-Growth算法子节点间传输数据量比较的结构图;
图9为本发明FFP-Growth算法与FP-Growth算法性能比较的示意图;
图10为本发明电力营销辅助决策系统的结构图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。
实施例1
图1显示了本发明基于关联规则挖掘的电力营销辅助决策方法一实施例的流程图。在图1中,包括:
一种基于关联规则挖掘的电力营销辅助决策方法,包括以下步骤:
步骤S1:在控制界面里点击控制页面,请求获取选取控制页面里的内容;
步骤S2:在Spark平台里,运用RDD并行编程模型,对原始的电力营销数据进行清理和提取,实现数据的预处理,利用FFP-Growth算法将经过数据预处理的结果进行关联规则挖掘,并对产生的关联规则进行筛选和评估,输出请求获取的内容;
步骤S3:使用SOAP协议远程调用输出请求获取的内容,控制界面对获取的内容进行解析后显示在控制页面上,供工作人员进行参考。
利用Spark平台与关联规则挖掘技术结合的优势,根据电力企业对数据分析的实际需求,实现对电力营销数据的快速挖掘,同时,并在挖掘之前通过Z-score标准化和FCM聚类算法对数据进行预处理,进一步提高挖掘速度,解决电力营销数据数量级差别大等问题,并在关联规则挖掘技术上引入稀疏矩阵存储方法,解决内存利用率不足的问题,同时提升了算法的效率,能满足当前的电力营销发展的市场化需求的问题。
在第一步骤S1中,控制界面为显示器中的浏览器界面或APP界面,点击方式为鼠标光标点击或手指触摸点击。
具体的,控制界面为浏览器界面(具体为,用EasyUI在JSP页面用简单的HTML标签来进行界面的设计),通过SOAP协议与Spark平台进行通讯,其中电击方式为鼠标光标或手指触摸点击,具体为,当采用手指触摸点击时,其显示屏幕需要具有触摸功能,当采用鼠标光标点击时,其需要通过外接插口外接鼠标等指示操作设备。
在第二步骤S2中,如图2所示,数据预处理为使用SOAP(简单对象传输协议)协议远程调度,将FCM聚类算法和Z-score标准化方法移植到Spark平台上,实现数据预处理,其具体步骤为:从原始文件提取聚类计算需要的数据,采用Z-score标准化方法对不同数量级连续属性的原始数据进行线性变换,采用FCM聚类算法对相同数量级连续属性的原始数据进行聚类,获得相同数量级离散化的数据,并将处理结果放入HDFS中储存。
具体的,原始文件为从原始数据中依据决策属性和分类属性构成的电力营销系统数据库,并从中抽取相应字段构成关联规则挖掘的事物数据库,其中,分类属性包括用户自身属性、市场属性等,决策属性包括所缴电费、分时用电量等。
进一步的,将挖掘现在产生或者历史产生的各种中间结果或最终结果数据放入到HDFS中。
其中,Z-score标准化方法利用自定义的标准差和均值对数据进行处理,处理后的数据服从标准差为1,均值为0的标准正态分布。经过标准化方法处理过的连续属性的值可以消除数据数量级上的差别,排除了数据挖掘中产生不良结果的可能。
其中,FCM即为模糊C均值聚类算法,是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。FCM的核心思想是把n个向量x1,x2,x3......xn,分为c个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。
下面用实验来验证基于Spark平台上数据预处理技术在电力营销数据分析中的有效性。实验数据由800条电力系统数据组成,包含了十余个电力企业的营销数据,每个数据包含四个属性,分别为经济水平(A)、峰电量(B)、平电量(C)、谷电量(D)。
经过Z-score标准化和FCM聚类算法的数据预处理,结果如图3,由图3可得,经过Z-score和FCM的数据预处理,从聚类的结果中可以看出各个用户群的用户数以及用户的分时用电情况,从峰、平、谷的差值可以看出用户削峰填谷的潜力。
图4可得,电费这一事务集经过了数据预处理流程的聚类,得到的聚类经济水平代表用户的购电能力。设计的系统得到了预期效果,解决了数据数量级上差别过大等问题,并对连续性的属性进行聚类和离散化,达到了预期效果。
在第二步骤S2中,如图5所示,所述FFP-Growth(FCM_FP-Growth)算法是在Spark平台下基于FCM聚类算法改进的FP-Growth关联规则挖掘算法,即FFP-Growth算法将原始数据存储在稀疏矩阵中,再采用FCM聚类算法对数据进行二次分类,最后并行执行FP-Growth算法;二次分类的策略减少了单个事务集过大的问题,在内存中的矩阵可以更便捷的存储。
其中,稀疏矩阵:在矩阵中,若数值为0的元素数目远远多于非0元素的数目时,则称该矩阵为稀疏矩阵。在电力营销数据中,最频繁的事务集相较于整个数据库也只是占很小一部分,这造成了矩阵中大部分数据为0,由于上节描述的FP-Growth算法的不足,本节提出稀疏矩阵存储大数据事务集,扫描一次数据库得到频繁项集矩阵,并长期驻留在内存中。在FP-Growth算法进行第二次扫描时,只需要在内存中扫描频繁项集矩阵,采用稀疏矩阵存储使得矩阵更容易被压缩,能更好的控制数据的大小,减小系统的负载。最重要的是,针对海量的电网数据,扫描稀疏矩阵的速度明显快于扫描原数据库,简化了挖掘过程,更节省了时间。
其具体步骤为:(1)、访问内存中的待处理数据,去除数据项中重复的部分,计算剩余数据项的支持度,并得到数据项列表F_list,并将含有支持度的数据项存在内存;
(2)、将原始数据转化为RDD结构,每个RDD包含支持度等信息,再将数据进行分组,相关数据被分为一组,数据项相应的出现次数被记录在item中,每个分组里包含一个数据项的集合Group_list,分组信息记录在一个分组表中,便于操作;
(3)、通过FCM聚类算法对包含支持度信息的数据项聚类,分别对每一个Group_list进行聚类,将Group_list再次根据类别进行分组;
(4)、FFP-Growth并行化计算,即在Spark Streaming框架下进行FFP-Growth批处理计算,通过一次Map Reduce任务将传统FP-Growth算法中对各频繁项的条件FP-Tree挖掘分发到各个节点,进行本地的频繁项集挖掘;所述Map Reduce任务中,Map是将在各个分组中的数据项划分到合适的Group_list,数据项指向对应节点,而Reduce是FFP-Growth算法的并行化,包括建立FFP-tree,增加树头指针表,构建条件树和分别挖掘每个FFP-tree;
(5)、将每台设备并行化的执行结果聚合成为一个整体,集合所有数据分组的频繁项集,并计算出的支持度得出最终结果,并转化为电力营销系统所需要的格式。
表1事务数据库
以表1中的数据为例,说明FFP-Growth算法中FFP-tree的挖掘过程。数据库中事务的链表组如图6所示。在图6中,以f为首项的事务组成的链表为V1,以c为首项的事务组成的链表为V2。
根据FFPTree挖掘算法描述中第(2)步和第(3)步,从链表V(ii=1,2,……,m-1,m)中将所有事务逐个导出,分别创建FFPTree结构。首先从链表组V中导出以f为首项的V1分量,创建子FFPTree结构,其结构如图7所示。图中每个结点存储了项item的名称、支持度计数、指向父结点的指针域和指向子结点的指针域。单链表L中存储了一组指针,分别指向FFPTree结构中的叶子结点,指针与树结构中的叶子结点一一对应。挖掘FFPTree结构中的频繁模式也将从单链表中第一个指针指向的叶结点开始。
FFPTree挖掘算法优点:
(1)、对事务中的项采用降序排序,避免了事务项多次排序,提高了算法效率;
(2)、针对每个数据链表存储的子数据库构建压缩结构,省去了多次判断事务归属于哪一个数据链表,在事务数据库稠密度较高的情况下,可以节省大量的资源。
下面,将从数据的运行和传输时间两个方面出发,比较改进的FFP-Growth算法与经典的FP-Growth算法之间的效果,验证改进的FFP-Growth的效果。
图8显示了两种算法在数据传输方面的情况。从图中可以看到当数据量比较小时,FFP-Growth算法相比较经典的FP-Growth算法在数据传输量区别不大,只是在数据传输量上稍占优势,随着数据量的线性增加,两个算法的差距逐渐加大,本文提出的FFP-Growth算法在分组过程中由于在原基础上增加了FCM聚类分组,使得分组后各组的数据量基本保持一致,这样便可保证同一组的数据存储在同一节点中,由此在很大程度上减少子节点间的数据传输。
FFP-Growth算法和经典的FP-Growth算法运行时间如图9所示。由图可知,最小支持度一定时,相较于经典的FP-Growth算法,伴随着数据量增加FFP-Growth算法在运行速度上的优势越发明显,和两个算法在传输数据量情况类似。
在第三步骤S3中,在使用SOAP协议远程调用服务的过程中,数据被封装成XML格式,发送到数据挖掘层,返回的数据又以同样的格式传输到业务应用层,在action操作后,数据被打包成JSON格式传回到浏览器,浏览器通过解析后显示在页面上。
实施例2
如图10所示,图10是本申请提供的一种基于关联规则挖掘的电力营销辅助决策系统,包括客户端和服务器端,且之间通过SOAP简单对象传输协议进行通信,具体为:采用的是B/S架构,Web浏览器作为客户端负责用户的交互,服务器端搭建在开源的云计算平台Spark上,里面的web内容被部署发布在tomcat上,浏览器和服务器间采用SOAP简单对象传输协议进行通信。
具体的,客户端:负责用户和系统之间的交互,是系统对外的接口,用于处理客户端的输入,并将输入的内容以图形化的方式显示在界面上。
具体的,所述客户端中的交互层包括:(1)、业务模块:得到并完成用户提交的信息查询、聚类、关联规则挖掘业务;(2)、展示模块:展示对数据预处理的结果,FFP-Growth挖掘的结果,及给出的分析结果。
具体的,服务器端:负责处理客户端用户提交的作业,处理作业执行并行化数据计算。
具体的,所述服务器端包括业务应用层、数据挖掘层以及分布式计算层,其中,
业务应用层:提供了各种业务逻辑,控制和调度挖掘平台层的各个模块的执行,用户在客户端中交互层提交的对数据聚类和关联规则挖掘等业务在这一层被处理,使用异步调度,将已计算好的结果返回给交互层。
所述业务应用层包括:(1)、业务响应模块:通过调用底层模块完成上层提交业务;(2)、工作流模块:将具体的信息参数返回给本层的业务响应模块。
数据挖掘层:基于Map Reduce实现电力营销数据关联规则挖掘所需要的算法的并行化,并将设计的挖掘模块交给分布式计算层进行分布式计算,最终将结果返回给业务应用层。
所述数据挖掘层包括:(1)、数据存储模块:将挖掘现在产生或者历史产生的各种中间结果或最终结果数据放入到HDFS文件系统中,以便其他模块使用;(2)、数据预处理模块:对HDFS文件中原始的电力营销数据进行清理和提取,提取聚类计算需要的数据,并调用并行的K-Means算法对连续的数据进行离散化处理,减少数据的属性值,并将处理结果也放入HDFS中,以便后续对数据进行关联规则计算;(3)、关联规则挖掘模块:利用FFP-Growth算法将经过数据预处理的结果进行关联规则挖掘,并对产生的关联规则进行筛选和评估,输出用户想要的结果。
分布式计算层:Spark提供了HDFS分布式存储系统和Map Reduce的并行的处理模式。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
以上仅为本发明的实施例,并非因此限值本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的保护范围内。
Claims (10)
1.一种基于关联规则挖掘的电力营销辅助决策方法,其特征在于,包括:
步骤S1:在控制界面里点击控制页面,请求获取选取控制页面里的内容;
步骤S2:在Spark平台里,运用RDD并行编程模型,对原始的电力营销数据进行清理和提取,实现数据的预处理,利用FFP-Growth算法将经过数据预处理的结果进行关联规则挖掘,并对产生的关联规则进行筛选和评估,输出请求获取的内容;
步骤S3:使用SOAP协议远程调用输出请求获取的内容,控制界面对获取的内容进行解析后显示在控制页面上。
2.根据权利要求1所述的基于关联规则挖掘的电力营销辅助决策方法,其特征是:所述步骤S1中,所述控制界面为显示器中的浏览器界面或APP界面,点击方式为鼠标光标点击或手指触摸点击。
3.根据权利要求1所述的基于关联规则挖掘的电力营销辅助决策方法,其特征是:所述步骤S2中,数据预处理为使用SOAP协议远程调度,将FCM聚类算法和Z-score标准化方法移植到Spark平台上,实现数据预处理,其具体步骤为:从原始文件提取聚类计算需要的数据,采用Z-score标准化方法对不同数量级连续属性的原始数据进行线性变换,采用FCM聚类算法对相同数量级连续属性的原始数据进行聚类,获得相同数量级离散化的数据,并将处理结果放入HDFS中储存。
4.根据权利要求3所述的基于关联规则挖掘的电力营销辅助决策方法,其特征是:将挖掘现在产生或者历史产生的各种中间结果或最终结果数据放入到HDFS中。
5.根据权利要求3所述的基于关联规则挖掘的电力营销辅助决策方法,其特征是:所述FFP-Growth算法是在Spark平台下基于FCM聚类算法改进的FP-Growth关联规则挖掘算法,即FFP-Growth算法将原始数据存储在稀疏矩阵中,再采用FCM聚类算法对数据进行二次分类,最后并行执行FP-Growth算法,其具体步骤为:
1)、访问内存中的待处理数据,去除数据项中重复的部分,计算剩余数据项的支持度,并得到数据项列表F_list,并将含有支持度的数据项存在内存中;
2)、将原始数据转化为RDD结构,每个RDD包含支持度信息,再将数据进行分组,相关数据被分为一组,数据项相应的出现次数被记录在item中,每个分组里包含一个数据项的集合Group_list,分组信息记录在一个分组表中,便于操作;
3)、通过FCM聚类算法对包含支持度信息的数据项聚类:分别对每一个Group_list进行聚类,再将Group_list根据类别进行分组;
4)、FFP-Growth并行化计算,即在Spark Streaming框架下进行FFP-Growth批处理计算,通过一次Map Reduce任务将传统FP-Growth算法中对各频繁项的条件FP-tree挖掘分发到各个节点,进行本地的频繁项集挖掘;
5)将每台设备并行化的执行结果聚合成为一个整体,集合所有数据分组的频繁项集,并计算支持度得出最终结果,并转化为电力营销系统所需要的格式。
6.根据权利要求5所述的基于关联规则挖掘的电力营销辅助决策方法,其特征是:所述Map Reduce任务中,Map是将在各个分组中的数据项划分到合适的Group_list,数据项指向对应节点,而Reduce是FFP-Growth算法的并行化,包括建立FFP-tree、增加树头指针表、构建条件树和分别挖掘每个FFP-tree。
7.根据权利要求1所述的基于关联规则挖掘的电力营销辅助决策方法,其特征是:所述步骤S3中,在使用SOAP协议远程调用服务的过程中,数据被封装成XML格式,发送到数据挖掘层,返回的数据又以同样的格式传输到业务应用层,在action操作后,数据被打包成JSON格式传回到浏览器,浏览器通过解析后显示在页面上。
8.一种基于关联规则挖掘的电力营销辅助决策系统,其特征是:包括客户端和服务器端,且两者之间通过SOAP简单对象传输协议进行通信,其中,
客户端:负责用户和系统之间的交互,是系统对外的接口,用于用户的输入,并将输入的内容以图形化的方式显示在界面上;
服务器端:负责处理客户端用户提交的作业,执行并行化数据计算,即服务器端中装有Spark平台,对原始的电力营销数据进行清理和提取,实现数据的预处理,利用FFP-Growth算法将经过数据预处理的结果进行关联规则挖掘,并对产生的关联规则进行筛选和评估,输出用户相要的结果。
9.根据权利要求8所述的基于关联规则挖掘的电力营销辅助决策系统,其特征是:所述服务器端包括业务应用层、数据挖掘层以及分布式计算层,其中,
业务应用层:提供各种业务逻辑,控制和调度挖掘平台层的各个模块的执行,用户在客户端中交互层提交的对数据聚类和关联规则挖掘业务在这一层被处理,使用异步调度,将已计算好的结果返回给交互层;
数据挖掘层:基于Map Reduce实现电力营销数据关联规则挖掘所需要的算法的并行化,并将设计的挖掘模块交给分布式计算层进行分布式计算,最终将结果返回给业务应用层;
分布式计算层:Spark平台提供HDFS分布式存储系统和Map Reduce的并行的处理模式。
10.根据权利要求9所述的基于关联规则挖掘的电力营销辅助决策系统,其特征是:
所述交互层包括:1)、业务模块:得到并完成用户提交的信息查询、聚类、关联规则挖掘业务;2)、展示模块:展示对数据预处理的结果、FFP-Growth挖掘的结果及给出的分析结果;
所述业务应用层包括:1)、业务响应模块:通过调用底层模块完成上层提交业务;2)、工作流模块:将具体的信息参数返回给本层的业务响应模块;
所述数据挖掘层包括:1)、数据存储模块:将挖掘现在产生或者历史产生的各种中间结果或最终结果数据放入到HDFS中,以便其他模块使用;2)、数据预处理模块:对HDFS中原始的电力营销数据进行清理和提取,提取聚类计算需要的数据,并调用并行的K-Means算法对连续的数据进行离散化处理,减少数据的属性值,并将处理结果也放入HDFS中,以便后续对数据进行关联规则计算;3)、关联规则挖掘模块:利用FFP-Growth算法将经过数据预处理的结果进行关联规则挖掘,并对产生的关联规则进行筛选和评估,输出用户想要的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111387766.6A CN114238432A (zh) | 2021-11-22 | 2021-11-22 | 一种基于关联规则挖掘的电力营销辅助决策方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111387766.6A CN114238432A (zh) | 2021-11-22 | 2021-11-22 | 一种基于关联规则挖掘的电力营销辅助决策方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114238432A true CN114238432A (zh) | 2022-03-25 |
Family
ID=80847127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111387766.6A Pending CN114238432A (zh) | 2021-11-22 | 2021-11-22 | 一种基于关联规则挖掘的电力营销辅助决策方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238432A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792193A (zh) * | 2021-08-27 | 2021-12-14 | 武汉理工大学 | 一种面向内河航标的事故数据挖掘方法与系统 |
CN117115637A (zh) * | 2023-10-18 | 2023-11-24 | 深圳市天地互通科技有限公司 | 一种基于大数据技术的水质监测预警方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104954453A (zh) * | 2015-06-02 | 2015-09-30 | 浙江工业大学 | 基于云计算的数据挖掘rest服务平台 |
CN108446375A (zh) * | 2018-03-16 | 2018-08-24 | 湘潭大学 | 一种基于Spark平台的多尺度关联规则方法 |
CN109933620A (zh) * | 2019-03-18 | 2019-06-25 | 上海大学 | 基于Spark的火电大数据挖掘方法 |
CN110909039A (zh) * | 2019-10-25 | 2020-03-24 | 北京华如科技股份有限公司 | 一种基于拖拽式流程的大数据挖掘工具及方法 |
-
2021
- 2021-11-22 CN CN202111387766.6A patent/CN114238432A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104954453A (zh) * | 2015-06-02 | 2015-09-30 | 浙江工业大学 | 基于云计算的数据挖掘rest服务平台 |
CN108446375A (zh) * | 2018-03-16 | 2018-08-24 | 湘潭大学 | 一种基于Spark平台的多尺度关联规则方法 |
CN109933620A (zh) * | 2019-03-18 | 2019-06-25 | 上海大学 | 基于Spark的火电大数据挖掘方法 |
CN110909039A (zh) * | 2019-10-25 | 2020-03-24 | 北京华如科技股份有限公司 | 一种基于拖拽式流程的大数据挖掘工具及方法 |
Non-Patent Citations (1)
Title |
---|
刘雨晨: "大数据技术在电力营销系统中的应用研究", 《CNKI优秀硕士学位论文全文库》, 15 March 2018 (2018-03-15), pages 3 - 5 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792193A (zh) * | 2021-08-27 | 2021-12-14 | 武汉理工大学 | 一种面向内河航标的事故数据挖掘方法与系统 |
CN113792193B (zh) * | 2021-08-27 | 2023-02-28 | 武汉理工大学 | 一种面向内河航标的事故数据挖掘方法与系统 |
CN117115637A (zh) * | 2023-10-18 | 2023-11-24 | 深圳市天地互通科技有限公司 | 一种基于大数据技术的水质监测预警方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106796578B (zh) | 知识自动化系统和方法以及存储器 | |
CN104317658B (zh) | 一种基于MapReduce的负载自适应任务调度方法 | |
US7991800B2 (en) | Object oriented system and method for optimizing the execution of marketing segmentations | |
CN103336790B (zh) | 基于Hadoop的邻域粗糙集快速属性约简方法 | |
CN114238432A (zh) | 一种基于关联规则挖掘的电力营销辅助决策方法及系统 | |
CN106649890A (zh) | 数据存储方法和装置 | |
CN112990486A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN104834557B (zh) | 一种基于Hadoop的数据分析方法 | |
CN111797927A (zh) | 用于确定机器学习样本的重要特征的方法及系统 | |
CN113610240A (zh) | 利用嵌套机器学习模型来执行预测的方法及系统 | |
CN113741883B (zh) | 一种rpa轻量级数据中台系统 | |
CN111783893A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
Lin et al. | A fast and resource efficient mining algorithm for discovering frequent patterns in distributed computing environments | |
Zhu et al. | Research on big data mining based on improved parallel collaborative filtering algorithm | |
CN110838055A (zh) | 一种基于大数据的电力企业财务数据管理系统 | |
CN112286957A (zh) | 基于结构化查询语言的bi系统的api应用方法及系统 | |
CN114066073A (zh) | 电网负荷预测方法 | |
Zhang | Optimization of FP-growth algorithm based on cloud computing and computer big data | |
CN115130811A (zh) | 电力用户画像的建立方法、装置及电子设备 | |
CN114386879A (zh) | 一种基于多产品多维度性能指标的评分与排行方法及系统 | |
Bu | Multi-task equilibrium scheduling of Internet of Things: A rough set genetic algorithm | |
CN112001539B (zh) | 一种高精度的客运预测方法及客运预测系统 | |
CN107168795B (zh) | 基于cpu-gpu异构复合式并行计算框架的密码子偏差系数模型方法 | |
CN111324594A (zh) | 用于粮食加工业的数据融合方法、装置、设备及存储介质 | |
CN112527851B (zh) | 用户特征数据筛选方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |