发明内容
为了解决上述技术问题,本发明提供基于能源互联网营销服务系统的数据采集方法,以解决现有的问题。
本发明的基于能源互联网营销服务系统的数据采集方法采用如下技术方案:
本发明一个实施例提供了基于能源互联网营销服务系统的数据采集方法,该方法包括以下步骤:
获取能源互联网营销服务系统的数据库中各服务对象在各服务单号下的各服务属性;将各服务属性中各不相等的取值作为各服务属性级;将相邻两个服务单号的相同服务属性下对应的服务属性级作为属性级联袂组合;根据各服务对象的各服务属性中属性级联袂组合出现的频次得到各服务对象的各服务属性的各类属性级联袂组合的组合联袂紧密因子;将各服务属性下组合联袂紧密因子大于预设阈值的属性级联袂组合作为真实联袂组合;
根据真实联袂组合的频繁项集及支持度得到各真实联袂组合的全局过渡平滑系数;结合全局过渡平滑系数及组合联袂紧密因子得到各真实联袂组合的综合过渡平滑指数;根据综合过渡平滑指数构建各服务单号关于各服务属性的属性特征向量,构建平滑无向图;结合平滑无向图及CPM算法得到各服务属性的平滑无向图中各社区重叠节点的重叠节点社区归属度;
根据重叠节点社区归属度及平滑无向图中各节点与相邻节点间的关系得到各服务属性的平滑无向图中各节点的属性数据纯净指数;根据所有节点的属性数据纯净指数的分布得到各服务对象的各服务单号的各服务属性的数据纯净修正系数;结合数据纯净修正系数及K-means聚类算法完成能源互联网营销服务系统的数据采集。
优选的,所述获取能源互联网营销服务系统的数据库中各服务对象在各服务单号下的各服务属性,包括:
针对各服务单号,服务属性包括服务对象类型、实际电压水平、月能源消耗量、月应缴费数额、上月能源消耗量、能源业务方案。
优选的,所述根据各服务对象的各服务属性中属性级联袂组合出现的频次得到各服务对象的各服务属性的各类属性级联袂组合的组合联袂紧密因子,包括:
针对各服务对象的各服务属性,计算所有服务单号的个数与1的差值,将各类属性级联袂组合出现的频次与所述差值的比值作为各类属性级联袂组合的组合联袂紧密因子。
优选的,所述根据真实联袂组合的频繁项集及支持度得到各真实联袂组合的全局过渡平滑系数,包括:
将各服务对象的所有真实联袂组合作为真实联袂集合,将所有服务对象的真实联袂集合作为FP-growth算法的输入,输出为各频繁项集及各频繁项集对应的支持度;
各真实联袂组合的全局过渡平滑系数的表达式为:
式中,是服务属性的真实联袂组合z的全局过渡平滑系数,是服务属性h的所有频繁项集中包含真实联袂组合z的频繁项集的个数,是服务属性h的所有频繁项集中第m个包含真实联袂组合z的频繁项集的支持度,表示服务属性h的所有频繁项集中包含真实联袂组合z的频繁项集的序号,是FP-growth算法中最小支持度。
优选的,所述结合全局过渡平滑系数及组合联袂紧密因子得到各真实联袂组合的综合过渡平滑指数,包括:
针对各服务对象的各服务属性,将各真实联袂组合的全局过渡平滑系数与组合联袂紧密因子的乘积作为各真实联袂组合的综合过渡平滑指数。
优选的,所述根据综合过渡平滑指数构建各服务单号关于各服务属性的属性特征向量,构建平滑无向图,包括:
针对各服务对象的各服务属性,将非真实联袂组合的属性级联袂组合的综合过渡平滑指数设定为0,将各服务单号分别与前一个服务单号、后一个服务单号构成的属性级联袂组合的综合过渡平滑指数作为前项平滑指数、后项平滑指数,将前项平滑指数、后项平滑指数组成各服务单号关于各服务属性的属性特征向量;
将所有服务对象的所有服务单号的所述属性特征向量作为各服务属性的初始无向图中的节点,所述初始无向图中两节点间的边权重为两节点对应属性特征向量的余弦相似度,保留所述余弦相似度大于等于预设分割阈值的边权重将初始无向图进行更新得到平滑无向图。
优选的,所述结合平滑无向图及CPM算法得到各服务属性的平滑无向图中各社区重叠节点的重叠节点社区归属度,包括:
将各服务属性的平滑无向图作为CPM算法的输入,输出为平滑无向图中的所有社区与社区重叠节点,将各社区重叠节点的各相连社区的完全子图作为Kruskal算法的输入,输出为各相连社区的最大生成树,记为一类生成树,将所述各相连社区去除社区重叠节点后的完全子图作为Kruskal算法的输入,输出的最大生成树记为二类生成树;
针对各服务属性的平滑无向图中各社区重叠节点的各相连社区,将一类生成树与二类生成树的树编辑距离作为各相连社区的重叠节点偏向系数,计算各相连社区的重叠节点偏向系数与剩余其他相连社区的重叠节点偏向系数的差值,将各社区重叠节点的所有所述差值的和值的归一化值作为各服务属性的平滑无向图中各社区重叠节点的重叠节点社区归属度。
优选的,所述各服务属性的平滑无向图中各节点的属性数据纯净指数,包括:
针对各服务属性的平滑无向图,利用广度优先搜索算法获取各节点的邻居节点,各服务属性的平滑无向图中各节点的属性数据纯净指数的表达式为:
式中,表示服务属性h的平滑无向图中节点i的属性数据纯净指数,表示服务属性h的平滑无向图中节点i的邻居节点个数,表示服务属性h的平滑无向图中节点i与所有邻居节点之间边权重的变异系数,表示预设大于零的调整因子,表示服务属性h的平滑无向图中节点i的重叠节点社区归属度,表示节点i不属于社区重叠节点,表示节点i属于社区重叠节点。
优选的,所述数据纯净修正系数的表达式为:
式中,是服务对象A的第y个服务单号的服务属性h的数据纯净修正系数,是服务对象A的第y个服务单号的服务属性h的属性数据纯净指数,、分别是服务对象A的第y、个服务单号的属性纯净序列,是dtw距离,是服务对象A的所有服务单号的个数,是服务对象A的第y个服务单号的属性纯净序列的信息熵,是服务对象A的第y个服务单号的属性纯净序列中去除服务属性h的属性数据纯净指数后的信息熵,表示预设大于零的调整因子,是归一化函数,其中,服务单号的属性纯净序列由服务单号所有服务属性的属性数据纯净指数升序排列构成。
优选的,所述结合数据纯净修正系数及K-means聚类算法完成能源互联网营销服务系统的数据采集,包括:
将所有服务对象的所有服务属性的数据纯净修正系数作为K-means聚类算法的输入,输出为各聚类簇,计算各聚类簇的数据纯净修正系数的均值,将所述均值最小值对应的聚类簇中所有服务属性对应服务单号下的所有数据进行删除,将删除后剩余的所有数据存入能源互联网营销服务系统。
本发明至少具有如下有益效果:
本发明通过基于服务对象的能源业务列表中各个服务单号在服务属性上的转换特征,结合FP-growth算法,获取综合过渡平滑指数,反映了属性级联袂组合在能源业务列表中相同服务属性下不同服务单号之间的过渡平滑特征,有益效果在于综合考虑属性级联袂组合在全局上的过渡平滑特征,避免了服务对象的能源业务列表中服务单号较少,存在误差较大的情况;基于服务属性构建属性特征向量之间的相似特征,结合CPM算法和Kruskal算法,构建数据纯净修正系数,作为K-means聚类算法的输入,有益效果在于考虑平滑无向图中社区重叠节点的社区归属特征,避免出现将异常数据的社区重叠节点误判成纯净数据的问题,同时考虑能源业务的变更特征,提高服务对象能源业务列表异常数据识别的精准度,确保后续能源互联网营销服务系统的决策分析。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于能源互联网营销服务系统的数据采集方法,其具体实施方式、结构、特征及其功效,详细说明如下。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于能源互联网营销服务系统的数据采集方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于能源互联网营销服务系统的数据采集方法的步骤流程图,该方法包括以下步骤:
步骤S001,通过能源互联网营销服务系统的数据库获取各服务对象及各服务对象的各服务属性。
在能源互联网营销服务系统的数据库中,获取服务对象的各服务属性,具体地,以能源互联网营销服务系统中的服务对象A为例,服务属性包括:服务对象类型、实际电压水平、月能源消耗量、月应缴费数额、上月能源消耗量、能源业务方案。基于服务对象A的所有服务属性的数据,构建服务对象A的能源业务列表,如表1所示。
需要说明的是,对于能源业务列表中的文本数据,采用Unicode的编码方式将每个文本数据转化为二进制形式,为了便于后续计算,将每个文本数据的二进制形式转化为十进制,将转化后的十进制结果代替文本数据,Unicode编码为现有公知技术,本实施例在此不做详细赘述。
表1中、、、、、分别为服务对象A在能源互联网营销服务系统中服务单号为1时的服务对象类型、实际电压水平、月能源消耗量、月应缴费数额、上月能源消耗量、能源业务方案,是服务对象A在能源互联网营销服务系统中服务单号的总个数。进一步的,将能源业务列表中非服务单号的所有列作为服务对象A的各个服务属性。
步骤S002,根据服务对象的能源业务列表中各个服务单号在服务属性上的转换特征,构建综合过渡平滑指数;基于服务属性构建属性特征向量之间的相似特征,结合CPM算法和Kruskal算法,构建数据纯净修正系数。
具体的,本实施例将首先获取能源互联网营销服务系统的数据库中各服务对象在各服务单号下的各服务属性,获取各服务属性下的各真实联袂组合,构建各真实联袂组合的全局过渡平滑系数与综合过渡平滑指数,根据各服务属性的属性特征向量构建各服务属性的平滑无向图,结合平滑无向图及CPM算法得到平滑无向图中各社区重叠节点的重叠节点社区归属度,根据重叠节点社区归属度得到各服务属性的数据纯净修正系数,根据数据纯净修正系数完成数据采集,能源服务数据采集指标构建流程图如图2所示。各服务对象的各服务单号的各服务属性的数据纯净修正系数的构建过程具体为:
在能源互联网营销服务系统中,服务对象往往需要与能源供应机构签订合同,确定能源消耗计划、能源计量方案和能源计费方案,这将导致同一个服务对象的相同服务属性的数据具有极高的统一性。例如个人用户由于电动汽车需要连通电源,与能源供应机构签订合同,确定电动汽车充电所需的实际电压水平,此时个人用户电动汽车每个月的能源消耗量、月应缴费数额等数据是极度相似的,具有较高的数据统一性。
具体地,在能源互联网营销服务系统中,以服务对象A的服务属性h为例,统计服务对象A的能源业务列表中服务属性h的所有数据,将每个不相等的数据记为服务属性级,例如,服务对象A的服务属性h中的数据为1、1、4、3、3、7、3、1,则对应服务属性级为1、4、3、7。其次,将相邻两个服务单号中服务属性h对应的服务属性级构成的组合记为属性级联袂组合,例如服务单号1与服务单号2的实际电压水平为一个属性级联袂组合,服务单号2与服务单号3的实际电压水平为另一个属性级联袂组合,以此类推,得到各属性级联袂组合。计算服务对象A的服务属性h中第c类属性级联袂组合的组合联袂紧密因子,表达式为:
式中,是服务对象A的服务属性h中第c类属性级联袂组合的组合联袂紧密因子,是服务对象A的服务属性h中第c类属性级联袂组合出现的频次,是服务对象A的所有服务单号的个数。
当属性级联袂组合出现的频次越多,即越大,说明第c类属性级联袂组合在服务对象A的服务属性h中越常见、联系越紧密,组合联袂紧密因子越大。
获取服务对象A的服务属性h中所有属性级联袂组合的组合联袂紧密因子,该值越大,说明同一个服务属性下,服务对象A中相邻两个服务单号对应服务属性级取值过渡平滑度越高,属性级联袂组合在能源业务列表中越不突兀。然而组合联袂紧密因子仅仅只考虑了单个服务对象的单个服务属性,具有较高的局限性,当服务对象能源业务列表中服务单号较少,存在数据量较少、组合联袂紧密因子易出现误差较大的问题,在能源互联网营销服务系统中具有众多服务对象,如果属性级联袂组合在所有服务对象的能源业务列表中的过渡平滑度都较高,此时属性级联袂组合越不可能包含异常数据。
计算服务对象A的服务属性h中所有属性级联袂组合的组合联袂紧密因子的均值,将均值作为联袂紧密分割值,将组合联袂紧密因子大于联袂紧密分割值的属性级联袂组合记为真实联袂组合,将服务对象A的服务属性h中所有真实联袂组合记为真实联袂集合。其次,获取所有服务对象关于服务属性h的真实联袂集合,记为真实联袂全局集。进一步的,将真实联袂全局集作为FP-growth算法的输入,具体的,将每一个服务对象关于服务属性h的真实联袂集合作为FP-growth算法中的一个事务,统计真实联袂全局集中所有真实联袂组合的总个数,记为,FP-growth算法的最小支持度minSup本实施例取,实施者可根据实际情况自行设定,本实施例对此不做限制,FP-growth算法的输出为真实联袂全局集的个频繁项集和频繁项集对应的支持度,频繁项集由单个或多个真实联袂组合构成,FP-growth算法为现有公知技术,本实施例在此不做详细赘述。
基于上述分析,计算服务对象A的服务属性h中各真实联袂组合的全局过渡平滑系数,表达式为:
式中,是服务属性的真实联袂组合z的全局过渡平滑系数,是服务属性的所有频繁项集中包含真实联袂组合z的频繁项集的个数,是服务属性h的所有频繁项集中第m个包含真实联袂组合z的频繁项集的支持度,表示服务属性h的所有频繁项集中包含真实联袂组合z的频繁项集的序号,是FP-growth算法中最小支持度;
是服务对象A的服务属性h中真实联袂组合z的综合过渡平滑指数,是服务对象A的服务属性h中真实联袂组合z的组合联袂紧密因子。
当包含真实联袂组合z的频繁项集的个数越多,即越大,说明在真实联袂全局集中真实联袂组合z越不是单独出现的,与越多的真实联袂组合具有关联规则;同时,当包含真实联袂组合z的频繁项集的支持度越大,即越大,说明真实联袂组合z在真实联袂全局集中出现的次数越多、越频繁,越多服务对象的能源业务列表中具有真实联袂组合z,且真实联袂组合z在所有服务对象的能源业务列表中出现比例也越高,则对于真实联袂全局集,真实联袂组合z越不显得突兀,越具有过渡平滑性,全局过渡平滑系数越大;同一个服务属性下,服务对象A中相邻两个服务单号对应服务属性级的取值过渡平滑度越高,越大,则综合过渡平滑指数越大。
针对各服务对象的各服务属性,将非真实联袂组合的属性级联袂组合的综合过渡平滑指数设定为0,可得各服务对象的各服务属性的各属性级联袂组合的综合过渡平滑指数,对于服务对象A的能源业务列表中第m个服务单号,与第m-1个、第m+1个服务单号关于服务属性h的综合过渡平滑指数分别记为前项平滑指数、后项平滑指数,组成服务对象A服务单号m中关于服务属性h的属性特征向量,其中当属性特征向量中存在缺失值时,采用属性特征向量中的另一个数值进行填充。获取所有服务对象中所有服务单号关于服务属性h的属性特征向量,将所有属性特征向量作为初始无向图中的节点,将任意两个属性特征向量之间的余弦相似度,作为初始无向图节点之间的初始边权,根据节点和初始边权构建属性特征向量的初始无向图;将初始无向图中的所有初始边权作为大津法的输入,获取分割阈值,实现对初始无向图的更新,初始无向图更新示意图如图3所示,具体为,将初始边权大于等于分割阈值节点连线进行保留,去除初始边权小于分割阈值的节点连线,将更新后的初始无向图记为服务属性h的平滑无向图。大津法为现有公知技术,本实施例在此不做详细赘述。
将服务属性h的平滑无向图作为CPM(Clique Percolation Method)算法的输入,采用交叉验证法获取CPM算法中的完全子图的节点数量,即K值,输出为平滑无向图中的所有社区和所有社区重叠节点,其中CPM算法与交叉验证法均为现有公知技术,本实施例在此不做详细赘述。在能源互联网营销服务系统中,社区重叠节点具有较大的概率为异常节点,例如,服务对象的电压水平有110V和220V,但是实际电网负载可能会发生变化,导致实际电压水平在110V和220V附近小范围波动,导致110V、220V附近波动的各个服务属性数据分别构成一个社区,如果160V是异常数据,与110V、220V社区均较为接近,但是由于异常值通常由随机噪声产生,160V无法构成一个社区,此时150V极有可能是110V、220V社区的社区重叠节点。
以服务属性h的平滑无向图中社区重叠节点u为例,可得社区重叠节点u的所有相连社区,将各相连社区对应的完全子图作为克鲁斯卡尔Kruskal算法的输入,得到相连社区的最大生成树,记为一类生成树,在最大生长树中,所有节点之间的边权重之和最大,由于节点之间的边权重是两节点对应属性特征向量之间的余弦相似度,每个节点通过最大生长树到达其它节点之间的代价越低,其中Kruskal算法为现有公知技术,本实施例在此不做详细赘述。其次,将各相连社区的社区重叠节点u删除,将删除处理后相连社区的完全子图作为Kruskal算法的输入,得到的最大生成树记为二类生成树。其中,需要说明的是,本实施例采用的Kruskal算法与传统Kruskal算法不同,本实施例中的Kruskal算法将所有边权重按从大到小的顺序排列,获取最大生成树。
基于上述分析,构建服务属性h的平滑无向图中社区重叠节点u的重叠节点社区归属度,表达式为:
式中,是服务属性h的平滑无向图中社区重叠节点u与第w个相连社区的重叠节点偏向系数,是服务属性h的平滑无向图中社区重叠节点u与第w个相连社区构建的一类生成树,是服务属性h的平滑无向图中社区重叠节点u与第w个相连社区构建的二类生成树,是计算两个最大生成树的树编辑距离;
是服务属性h的平滑无向图中社区重叠节点u的重叠节点社区归属度,是服务属性h的平滑无向图中社区重叠节点u的相连社区个数,是服务属性h的平滑无向图中社区重叠节点u与第个相连社区的重叠节点偏向系数,是归一化函数。
当社区重叠节点的一类生成树和二类生成树的差异越大,即越大,说明社区重叠节点与相连社区的各个节点之间的相似度越大,则社区重叠节点越偏向于相连社区,重叠节点偏向系数越大,同时当第w个相连社区与其它相连社区的重叠节点偏向系数相比越大,即越大,说明社区重叠节点只偏向于一个相连社区,重叠节点社区归属度越大,社区重叠节点u越不可能是异常数据。
至此,得到服务属性h的平滑无向图中各社区重叠节点的重叠节点社区归属度,重叠节点社区归属度越大,社区重叠节点越偏向于某一个社区,越不可能是异常数据。其次,对于平滑无向图中的各节点,采用广度优先搜索BFS(Breadth-First Search)获取各节点的邻居节点,BFS算法为现有公知技术,本实施例在此不做详细赘述。可得服务属性h的平滑无向图中节点i的属性数据纯净指数,表达式为:
式中,表示服务属性h的平滑无向图中节点i的属性数据纯净指数,表示服务属性h的平滑无向图中节点i的邻居节点个数,表示服务属性h的平滑无向图中节点i与所有邻居节点之间边权重的变异系数,表示预设大于零的调整因子,作用是为了防止分母为0,本实施例中,实施者可根据实际情况自行设定,本实施例对此不做限制,表示服务属性h的平滑无向图中节点i的重叠节点社区归属度,表示节点i不属于社区重叠节点,表示节点i属于社区重叠节点。
当节点i的邻居节点个数越多、节点i与邻近节点之间的边权重越大,即越大,说明节点i在服务属性h的平滑无向图与越多的节点具有高相似度,同时当节点i属于社区重叠节点,节点i的重叠节点社区归属度越大,即越大,说明节点i越偏向于某一个社区,越不可能是异常数据,则节点i代表的服务属性h的数据越纯净,属性数据纯净指数越大。
在能源互联网营销服务系统中,计算所得的属性数据纯净指数只考虑单个服务属性的纯净特征,未能考虑服务对象发生能源业务变更时的特征。当服务对象的能源业务发生变更,此时服务对象的能源业务列表中的对应服务单号下的服务属性将具有极大的变化,导致相邻两个服务单号的服务属性存在差异,计算所得的属性数据纯净指数存在误差。因此,获取服务对象A的能源业务列表中第y个服务单号的所有服务属性对应的属性数据纯净指数。基于上述分析,构建服务对象A的能源业务列表中第y个服务单号的服务属性h的数据纯净修正系数,表达式为:
式中,是服务对象A的第y个服务单号的服务属性h的数据纯净修正系数,是服务对象A的第y个服务单号的服务属性h的属性数据纯净指数,、分别是服务对象A的第y、个服务单号的属性纯净序列,是dtw距离,是服务对象A的所有服务单号的个数,是服务对象A的第y个服务单号的属性纯净序列的信息熵,是服务对象A的第y个服务单号的属性纯净序列中去除服务属性h的属性数据纯净指数后的信息熵,表示预设大于零的调整因子,是归一化函数,其中,属性纯净序列由第y个服务单号所有服务属性的属性数据纯净指数升序排列构成。
当有无服务属性h的属性纯净序列的信息熵差异越小、同时第y个服务单号与其它服务单号的属性纯净序列相差越大,即越小、越大,说明属性纯净序列的差异越不可能是由于服务属性h异常导致,越有可能是第y个服务单号发生了能源业务更新,此时服务属性h的数据越纯净,即越大,说明考虑服务对象发生能源业务变更特征对属性数据纯净指数进修正后,数据是纯净数据的可能性越大,越大,越不可能是能源互联网营销服务系统中的异常数据。
步骤S003,采用K-means聚类算法获取所有服务对象的服务属性数据中的异常数据,并进行数据清洗处理。
获取所有服务对象所有服务属性的数据纯净修正系数,作为K-means聚类算法的输入,对于K-means聚类算法,本实施例中K=2,实施者可根据实际情况自行设定,本实施例对此不做限制,即输出2个聚类簇,计算2个聚类簇的数据纯净修正系数均值。为了获取纯净无异常的数据,不影响后续能源互联网营销服务系统的决策分析,选择最小数据纯净修正系数均值对应的聚类簇,将聚类簇中所有服务属性对应能源业务列表中服务单号下的所有数据进行删除处理,将删除后剩余的所有数据存入能源互联网营销服务系统的数据库中。
综上所述,本发明实施例解决了能源互联网营销服务系统中异常数据识别困难的问题,结合K-means聚类算法,提高服务对象能源业务列表中异常数据识别的精准度,完成能源互联网营销服务系统的数据采集。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。