发明内容
本发明提供一种基于信息智能匹配的新能源智能结算方法及系统,以解决现有的人工检测新能源结算中虚报电量准确性较差的问题,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种基于信息智能匹配的新能源智能结算方法,该方法包括以下步骤:
获取实际结算数据与历史上报数据,通过对实际结算数据进行傅里叶变换获取若干初始季节,将每个初始季节分别作为初始窗口;
通过任意一个初始窗口划分实际结算数据,获取该初始窗口对应的若干初始窗口序列,分别计算若干初始窗口序列中任意相邻两个序列间的元素均值,将后一个序列的元素均值减去前一个序列的元素均值作为两个序列间的元素均值差,根据元素均值差及两个序列中的元素获取相邻两个序列间的距离一致程度,将每个初始窗口下所有相邻序列间的距离一致程度的均值作为每个初始窗口的距离一致性;
通过任意一个初始窗口获取实际结算数据的趋势线,获取实际结算数据中的若干极值点,根据相邻极值点获取每个极值点的极值性,根据极值性将若干极值点划分为若干第一类别,根据第一类别中极值点的数量及分布获取每个第一类别的代表趋势性,计算该初始窗口趋势线的整体主方向及每个第一类别的代表主方向,根据代表趋势性及代表主方向与整体主方向的差异,获取每个初始窗口的特征损失率;
将距离一致性与特征损失率的比值作为每个初始窗口的最佳程度,将最佳程度最大的初始窗口作为最佳窗口,通过最佳窗口获取实际结算数据中的实际周期曲线,根据实际周期曲线获取若干初始周期,通过最佳窗口获取历史上报数据中的若干历史周期模式,对实际周期模式与历史周期模式进行最优化匹配得到若干周期模式对;
对周期模式对中的实际结算数据与历史上报数据进行对比,获取每个周期模式下实际结算数据的异常率,根据异常率完成虚报核查。
可选的,所述通过对实际结算数据进行傅里叶变换获取若干初始季节,包括的具体方法为:
将实际结算数据的曲线形式记为实际结算曲线,对实际结算曲线通过傅里叶变换转换到频域空间,频域空间中横坐标为频率而纵坐标为幅值,获取频域空间中的幅值序列,根据幅值序列中每个幅值对应的频率,将频率的倒数作为初始季节。
可选的,所述根据元素均值差及两个序列中的元素获取相邻两个序列间的距离一致程度,包括的具体方法为:
对任意相邻两个初始窗口序列中的后一个序列每个元素都减去元素均值差得到调整后序列;分别计算前一个序列与调整后序列中相同位置的元素之间的差值绝对值,记为两个序列间该位置的差异,将所有位置的差异和的倒数作为相邻两个序列间的距离一致程度。
可选的,所述根据相邻极值点获取每个极值点的极值性,包括的具体方法为:
其中,
表示第
个极值点的极值性,
表示实际结算曲线中第
个极值点的纵
坐标,
表示第
个极值点与该点右侧相邻极值点之间所有点的纵坐标均值,
表示第
个极值点与该点左侧相邻极值点之间所有点的纵坐标均值,
表示第
个极值点的右
侧相邻极值点的横坐标,
表示第
个极值点的左侧相邻极值点的横坐标。
可选的,所述根据第一类别中极值点的数量及分布获取每个第一类别的代表趋势性,包括的具体方法为:
其中,
表示第
个第一类别的代表趋势性,
表示第
个第一类别中极值点数量
的归一化值,
表示第
个第一类别极值点中的最大横坐标,
表示第
个第一类别极值点
中的最小横坐标,
表示实际结算曲线中横坐标长度。
可选的,所述获取每个初始窗口的特征损失率,包括的具体方法为:
将所有第一类别根据代表趋势性降序排列,记为代表类别序列;计算任意一个初始窗口趋势线的整体主方向与每个第一类别的代表主方向的角度差值,将所有第一类别根据主方向角度差值降序排列,记为该初始窗口的窗口类别序列;分别计算每个第一类别在代表类别序列与窗口类别序列中序数的差值绝对值,将所有第一类别得到的差值绝对值之和作为该初始窗口的特征损失率。
可选的,所述根据初始周期获取若干实际周期模式,包括的具体方法为:
获取任意一个初始周期,利用该初始周期对实际周期曲线进行分割,计算得到的每个分割部分与其他分割部分的余弦相似度,将余弦相似度大于第一预设阈值的分割部分归入该初始周期的第二类别;
获取若干初始周期的第二类别,计算每个第二类别中与类别内其他分割部分余弦相似度均值最大的分割部分,将最大的分割部分分别作为每个第二类别的代表,记为实际周期模式。
可选的,所述对实际周期模式与历史周期模式进行最优化匹配得到若干周期模式对,包括的具体方法为:
将实际周期模式与历史周期模式分别作为二分图的左右节点,实际周期模式为左侧节点,历史周期模式为右侧节点,左右节点之间的边值为两个周期模式间的余弦相似度,通过KM 匹配获取若干匹配模式对。
第二方面,本发明另一个实施例提供了一种基于信息智能匹配的新能源智能结算系统,该系统包括:
数据采集处理模块,获取实际结算数据与历史上报数据,通过对实际结算数据进行傅里叶变换获取若干初始季节,将每个初始季节分别作为初始窗口;
信息智能匹配模块:通过任意一个初始窗口划分实际结算数据,获取该初始窗口对应的若干初始窗口序列,分别计算若干初始窗口序列中任意相邻两个序列间的元素均值,将后一个序列的元素均值减去前一个序列的元素均值作为两个序列间的元素均值差,根据元素均值差及两个序列中的元素获取相邻两个序列间的距离一致程度,将每个初始窗口下所有相邻序列间的距离一致程度的均值作为每个初始窗口的距离一致性;
通过任意一个初始窗口获取实际结算数据的趋势线,获取实际结算数据中的若干极值点,根据相邻极值点获取每个极值点的极值性,根据极值性将若干极值点划分为若干第一类别,根据第一类别中极值点的数量及分布获取每个第一类别的代表趋势性,计算该初始窗口趋势线的整体主方向及每个第一类别的代表主方向,根据代表趋势性及代表主方向与整体主方向的差异,获取每个初始窗口的特征损失率;
将距离一致性与特征损失率的比值作为每个初始窗口的最佳程度,将最佳程度最大的初始窗口作为最佳窗口,通过最佳窗口获取实际结算数据中的实际周期曲线,根据实际周期曲线获取若干初始周期,通过最佳窗口获取历史上报数据中的若干历史周期模式,对实际周期模式与历史周期模式进行最优化匹配得到若干周期模式对;
虚报核查预警模块,对周期模式对中的实际结算数据与历史上报数据进行对比,获取每个周期模式下实际结算数据的异常率,根据异常率完成虚报核查。
本发明的有益效果是:传统STL分解过程采用默认窗口大小来进行计算;本发明中通过距离一致性对STL分解采用的窗口进行调整,使得采用的窗口可以更好地反映数据的周期变化特征;通过特征损失率的计算,使得通过调整的窗口进行STL分解得到的趋势线,可以更好地表示数据的趋势变化特征,有助于提高后续的周期项的准确性;通过KM匹配对实际结算数据中的周期模式与历史上报数据中的周期模式进行匹配,通过匹配成功的数据之间的对比,得到实际结算数据中的异常上报,进而完成虚报情况的核查;与原始的人工核查方法相比,大大节省了人力财力,同时使得核查准确率更高。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种基于信息智能匹配的新能源智能结算方法流程图,该方法包括以下步骤:
步骤S001、获取实际结算数据与历史上报数据,通过对实际结算数据进行傅里叶变换获取若干初始季节,将每个初始季节分别作为初始窗口。
本实施例的目的是对新能源结算数据中的虚报问题进行稽查核验,通过产能曲线与实际上报总额的对比判断虚报异常;因此首先需要获取新能源的产能数据,所述产能即是新能源转化为电能的数据;需要说明的是,由于新能源发电具有随机性、波动性以及不确定性高的特点,因此发电数据并不稳定,产能数据表现为一条波动曲线。
进一步需要说明的是,由于发电数据不稳定,曲线一直在波动;不同波动情况下,转化的电量损失情况不同;例如风能产生的能量不可能全部转化为电能,转化过程中有损失,风力平稳时转化损失小,风力变化越大则转化损失越大;不稳定电能转化为稳定电能过程中的损耗与不稳定电能的变化密切相关,因此实际产能曲线与历史曲线越相似,在没有虚报情况下,两个时间段的电能总额应越相近。
具体的,获取实际结算数据,即上报的待核查的实际产能数据,表现为波动曲线形式,为时序数据;获取历史上报数据,即已经核查过的历史产能数据,为时序数据;需要说明的是,历史上报数据中对应的电能总额已经过核查没有问题,可作为实际结算数据核查的参考来对虚报问题进行核查。
进一步的,将实际结算数据的曲线形式记为实际结算曲线,对实际结算曲线通过傅里叶变换转换到频域空间,频域空间中横坐标为频率而纵坐标为幅值,获取频域空间中的幅值序列,根据幅值序列中每个幅值对应的频率,将频率的倒数作为初始季节,即为实际结算曲线经傅里叶变换分解得到的若干初始季节,将每个初始季节分别作为初始窗口。
至此,获取到若干初始窗口,通过初始季节的大小确定初始窗口,进行后续STL分解的参数,需要从若干初始窗口中获取最佳窗口,以使得SLT分解后的周期模式更能反映实际结算数据中的周期及趋势变化特征,使得与历史上报数据进行匹配核查时结果更为准确。
步骤S002、通过任意一个初始窗口划分实际结算数据,获取该初始窗口对应的若干初始窗口序列,根据相邻序列间的元素均值差及元素获取相邻序列间的距离一致程度,进而得到每个初始窗口的距离一致性。
需要说明的是,STL分解过程中,采用了移动平均的方法,多大的窗口进行移动平均对分解结果影响较大,现有方法中的默认窗口不适用于所有数据,应根据数据的周期及趋势变化特征来确定最佳窗口,进而可以使匹配的结果更加准确,以使得虚报核查的准确性更高;初始窗口将实际结算数据划分为若干初始窗口序列,相邻序列间相似度越大,相邻序列间的分割更符合周期划分,表明该初始窗口更能反映数据的周期变化特征。
具体的,首先以任意一个初始窗口为例,利用该初始窗口将实际结算数据均等分割为若干段,每段包含若干数据,且按照时序排列,则每段数据即为一个序列,记为该初始窗口的若干初始窗口序列,每个初始窗口序列长度都等于初始窗口长度。
进一步需要说明的是,相邻序列间的相似度可以通过相邻序列间相同位置的数据之间的差异来表现,但存在相邻序列间相似度较大,但其中一个序列较之另一个序列整体数值增大,因此需要获取两个序列的元素均值差,以去除整体增大对相似度计算的影响。
具体的,以该初始窗口的若干初始窗口序列中任意两个相邻的初始窗口序列为例,分别计算两个初始窗口序列中的元素均值,将后一个序列的元素均值减去前一个序列的元素均值记为两个序列间的元素均值差,对后一个序列中每个元素都减去元素均值差得到调整后序列;分别计算前一个序列与调整后序列中相同位置的元素之间的差值绝对值,记为两个序列间该位置的差异,将所有位置的差异和的倒数作为相邻两个序列间的距离一致程度;需要说明的是,由于差异和存在为0的情况,因此在求倒数过程中分子分母同时加1,以避免出现分母为0的情况;此时差异和越小,表明相邻序列间的相似度越大,即距离一致程度越大,此时对应的初始窗口划分下的初始窗口序列越符合周期变化。
进一步的,将该初始窗口下所有相邻序列间的距离一致程度的均值作为该初始窗口的距离一致性,按照上述方法获取每个初始窗口的距离一致性。
至此,获取到了每个初始窗口的距离一致性,表征每个初始窗口划分下的初始窗口序列符合周期变化的程度。
步骤S003、通过任意一个初始窗口获取实际结算数据的趋势线,获取实际结算数据中的若干极值点并计算每个极值点的极值性,将若干极值点划分为若干第一类别,获取每个第一类别的代表趋势性,计算该初始窗口趋势线的整体主方向及每个第一类别的代表主方向,根据代表趋势性及代表主方向与整体主方向的差异,获取到每个初始窗口的特征损失率。
需要说明的是,按照任意一个初始窗口进行STL分解,得到的趋势线反映了数据的整体趋势变化,而实际结算数据中的极值点作为变化较大点,其更能反映数据的趋势变化,通过极值点的极值以及与相邻极值点的距离获取极值点的极值性,极值性越大的极值点越能反映趋势变化;而通过极值性将极值点划分为若干第一类别,代表趋势性越大,该第一类别的极值点越能反映整体趋势变化,通过趋势线与第一类别间趋势性的差异表现,趋势线与代表趋势性越大的第一类别越相近,表明对应初始窗口进行STL分解得到的趋势线更能反映趋势变化,对于较好反映趋势的极值点的保留程度越强,使得后续周期曲线获取更加准确,进而提高匹配核查结果的准确性。
具体的,以任意一个初始窗口为例,由于实际结算数据为时序数据,可以表现为曲
线形式,记为实际结算曲线,根据该初始窗口对实际结算曲线进行STL分解,得到该初始窗
口对应的趋势线,通过一阶导数获取实际结算数据一阶导数中的零点,即为实际结算数据
中的极值点,以第
个极值点为例,获取该极值点的极值性
的具体计算方法为:
其中,
表示实际结算曲线中第
个极值点的纵坐标,
表示第
个极值点与该
点右侧相邻极值点之间所有点的纵坐标均值,
表示第
个极值点与该点左侧相邻极值
点之间所有点的纵坐标均值;所述纵坐标均值计算不包括第
个极值点以及左右两侧相邻
极值点;
表示第
个极值点的右侧相邻极值点的横坐标,
表示第
个极值点的左侧
相邻极值点的横坐标;此时,分子部分表示该极值点与左右相邻极值点之间其他点的纵坐
标差异,差异越大表明该极值点越突出,越能反映趋势变化,极值性越大;分母部分表示该
极值点的左右相邻极值点之间的横坐标距离,表征该极值点能够影响的趋势范围,趋势范
围越大,该极值点所能体现出的趋势变化越小,极值性越小;按照上述方法获取所有极值点
的极值性;特别说明的是,对于第一个极值点和最后一个极值点,其不存在的一侧极值点则
分别采用实际结算数据中的第一个数据和最后一个数据进行计算。
进一步的,将所有极值点根据极值性的大小通过DBSCAN进行聚类,得到若干第一
类别,相同第一类别中的极值点极值性相近,不同第一类别间的极值点极值性相差较大;极
值性相近的点对于数据趋势变化的表现相近,第一类别中极值点的数量越多,分布范围越
广,其越能反映数据的整体趋势;以第
个第一类别为例,获取该第一类别的代表趋势性
的具体计算方法为:
其中,
表示第
个第一类别中极值点数量的归一化值,归一化方法采用所有第一
类别的极值点数量进行线性归一化;
表示第
个第一类别极值点中的最大横坐标,
表示
第
个第一类别极值点中的最小横坐标,
表示实际结算曲线中横坐标长度,用于对第一类
别的横坐标长度进行归一化;此时极值点数量越大,代表趋势性越大;类别中极值点分布范
围越广,代表趋势性越大。
进一步的,将任意一个第一类别的所有极值点的坐标数据作为主成分分析的输入,输出得到多个特征值和特征向量,将最大特征值对应的特征向量的方向作为该第一类别的代表主方向;按照上述方法获取每个第一类别的代表主方向;将任意一个初始窗口得到的趋势线中所有点的坐标数据作为主成分分析的输入,按照相同方法获取该初始窗口趋势线的整体主方向;将所有第一类别根据代表趋势性降序排列,记为代表类别序列;计算任意一个初始窗口趋势线的整体主方向与每个第一类别的代表主方向的角度差值,将所有第一类别根据主方向角度差值降序排列,记为该初始窗口的窗口类别序列;分别计算每个第一类别在代表类别序列与窗口类别序列中序数的差值绝对值,将所有第一类别得到的差值绝对值之和作为该初始窗口的特征损失率;按照上述方法获取每个窗口的特征损失率;此时趋势线的整体主方向与代表趋势性越大的第一类别的代表主方向越接近,则该趋势线对应的初始窗口进行STL分解越能反映数据的整体趋势变化。
至此,获取到了每个初始窗口的特征损失率,表征根据每个初始窗口进行STL分解得到的趋势线所能反映整体趋势变化的程度。
步骤S004、根据距离一致性及特征损失率获取最佳窗口,通过最佳窗口获取实际周期曲线,进而得到若干实际周期模式,通过最佳窗口获取历史上报数据中的若干历史周期模式,对实际周期模式与历史周期模式进行最优化匹配得到若干周期模式对。
需要说明的是,距离一致性越大,初始窗口划分下的周期变化越明显,窗口越好;特征损失率越小,初始窗口得到的趋势线越能反映整体趋势变化,窗口越好,因此根据距离一致性及特征损失率获取最佳窗口;再根据最佳窗口对实际结算数据及历史上报数据进行STL分解,获取到相应的周期曲线,并分别得到若干实际周期模式与历史周期模式,相似的周期模式下的曲线变化相近,对应的电能总额越接近,越能通过历史数据对实际数据核查进行参考。
具体的,将每个初始窗口的距离一致性与特征损失率的比值作为每个窗口的最佳程度,将最佳程度最大的初始窗口作为最佳窗口;需要说明的是,若特征损失率为0,则最佳程度即为距离一致性的值;根据最佳窗口按照STL分解实际结算曲线得到实际结算数据的周期曲线,记为实际周期曲线;其中STL分解为现有技术,本实施例不再赘述。
进一步的,将实际周期曲线通过傅里叶变换转换到频域空间,将其中各幅值对应频率的倒数作为初始周期,得到若干初始周期;以任意一个初始周期为例,利用该初始周期对实际周期曲线进行均等分割,计算得到的每个分割部分与其他分割部分的余弦相似度,给出第一预设阈值用于判断相似程度,本实施例第一预设阈值采用0.9进行计算,将余弦相似度大于第一预设阈值的分割部分归入该初始周期的第二类别,使得第二类别中任意两个分割部分的余弦相似度均大于第一预设阈值;按照上述方法获取若干初始周期的第二类别,每个第二类别中有多个分割部分,同一第二类别中的分割部分周期相同且曲线表现相近,计算每个第二类别中与类别内其他分割部分余弦相似度均值最大的分割部分,将最大的分割部分分别作为每个第二类别的代表,记为实际周期模式。
进一步的,历史上报数据为时序数据,其曲线形式记为历史上报曲线,根据最佳窗口对历史上报曲线进行STL分解得到历史上报数据的周期曲线,记为历史周期曲线,并按照上述获取实际周期曲线中的若干实际周期模式的方法,获取若干历史周期模式;将实际周期模式与历史周期模式分别作为二分图的左右节点,实际周期模式为左侧节点,历史周期模式为右侧节点,左右节点之间的边值为两个周期模式间的余弦相似度,通过KM 匹配获取若干匹配模式对,每个匹配模式对中包括一个实际周期模式与一个历史周期模式。
至此,完成了对于实际结算数据与历史上报数据的匹配,为后续根据历史上报数据对实际结算数据进行核查提供基础。
步骤S005、对周期模式对中的实际结算数据与历史上报数据进行对比,获取每个周期模式下实际结算数据的异常率,根据异常率完成虚报核查。
需要说明的是,每个周期模式或分割部分都是一段曲线,即一段数据,则每段数据都对应一个电能总额,即段内数据总和;因此利用实际结算数据中每个分割部分对应的实际周期模式,与匹配模式对下历史周期模式的电能总额进行对比,即可完成对实际结算数据的虚报核查。
具体的,以任意一个实际结算数据中的分割部分为例,得到该分割部分所属的第二类别以及相应的实际周期模式,根据匹配模式对获取匹配的历史周期模式,分别获取该分割部分的电能总额以及历史周期模式的电能总额,将两个电能总额之间的差值绝对值作为该分割部分的异常程度;按照上述方法获取所有分割部分的异常程度,并进行线性归一化处理,将异常程度的归一化结果记为分割部分的异常率;给出第二预设阈值用于判断虚报异常,本实施例第二预设阈值采用0.3进行计算,将异常率大于第二预设阈值的分割部分作为异常部分。
至此,获取到了实际结算数据中的异常部分,上报到新能源智能结算系统中,再队异常部分数据进行核查,并进行虚报预警。
需要说明的是,本实施例进行分段过程中,如有不满足窗口大小要求的采用二次线性插值进行补充,并参与后续计算。
请参阅图2,其示出了本发明另一个实施例所提供的一种基于信息智能匹配的新能源智能结算系统结构框图,该系统包括:
数据采集处理模块S101,获取实际结算数据与历史上报数据,通过对实际结算数据进行傅里叶变换获取若干初始季节,将每个季节分别作为初始窗口。
信息智能匹配模块S102:
(1)通过任意一个初始窗口划分实际结算数据,获取该初始窗口对应的若干初始窗口序列,根据相邻序列间的元素均值差及元素获取相邻序列间的距离一致程度,进而得到每个初始窗口的距离一致性;
(2)通过任意一个初始窗口获取实际结算数据的趋势线,获取实际结算数据中的若干极值点并计算每个极值点的极值性,将若干极值点划分为若干第一类别,获取每个第一类别的代表趋势性,计算该初始窗口趋势线的整体主方向及每个第一类别的代表主方向,根据代表趋势性及代表主方向与整体主方向的差异,获取到每个初始窗口的特征损失率;
(3)根据距离一致性及特征损失率获取最佳窗口,通过最佳窗口获取实际周期曲线,进而得到若干实际周期模式,通过最佳窗口获取历史上报数据中的若干历史周期模式,对实际周期模式与历史周期模式进行最优化匹配得到若干周期模式对。
虚报核查预警模块S103,对周期模式对中的实际结算数据与历史上报数据进行对比,获取每个周期模式下实际结算数据的异常率,根据异常率完成虚报核查。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。