CN115719182A

CN115719182A - 一种电力数据指数快速生成方法及系统

Info

Publication number: CN115719182A
Application number: CN202211486749.2A
Authority: CN
Inventors: 宫立华; 刘鲲鹏; 张明杰; 杨菁; 龚建
Original assignee: State Grid Co ltd Customer Service Center
Current assignee: State Grid Co ltd Customer Service Center
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-02-28

Abstract

本发明涉及一种电力数据指数快速生成方法及系统，从指标库中获取所需指标数据作为数据源；根据所述数据源，从指标数据特征、指标数据分布进行指标数据探索性分析、指标相关性度量及指标重要程度分析以进行指标筛选和组合；通过数值变换对所述筛选和组合后的指标进行连续变换处理或离散变换处理，生成基础指数；将所述基础指数根据各自权重进行加权计算得到中间指数；根据所述中间指数综合评判得到电力数据产品指数，建立指数体系。本发明能够实现指标数据分析、基础指数生成、指体系构建等功能。

Description

一种电力数据指数快速生成方法及系统

技术领域

本发明涉及指数处理技术领域，尤其涉及一种电力数据指数快速生成方法及系统。

背景技术

现有技术中，指数或称统计指数，是分析社会经济现象数量变化的一种重要统计方法，是一种表明社会经济现象动态的相对数。运用指数可以测定不能直接相加和不能直接对比的社会经济现象的总动态；可以分析社会经济现象总变动中各因素变动的影响程度；可以研究总平均指标变动中各组标志水平和总体结构变动的作用。指数按所反映的现象范围不同，分为个体指数和总指数。前者反映个体经济现象变动的相对数，如个别产品的物量指数、个别商品的价格指数等；后者是表明全部经济现象变动的相对数，如工业总产值指数、居民消费价格总指数。

电力数据以脱敏化指数方式服务于经济、产业及产业链、民生和城市发展，助力精准施策、高效监管、智慧运营和风险控制。但是电力指数基础产品的建设能力有待进一步的提升和完善，目前还缺乏针对行业、产业、区域、主题等宏观场景下的指数建设能力。需要解决以定基指数为代表的宏观场景下的指数快速生产、实时跟踪和差异化运营分析三大方向技术能力。电力体系中的指标众多，指数版本管理缺乏，指数权重设计不合理，存在着基础指标重复计算等业务痛点问题。

发明内容

本发明提供一种电力数据指数快速生成方法及系统，解决现有技术中基于电力数据进行指数快速生成的问题。

根据本发明的一个方面，提供一种电力数据指数快速生成方法，包括：

从指标库中获取所需指标数据作为数据源；

根据所述数据源，从指标数据特征、指标数据分布进行指标数据探索性分析、指标相关性度量及指标重要程度分析以进行指标筛选和组合；

通过数值变换对所述筛选和组合后的指标进行连续变换处理或离散变换处理，生成基础指数；

将所述基础指数根据各自权重进行加权计算得到中间指数；根据所述中间指数综合评判得到电力数据产品指数，建立指数体系。

所述从指标库中获取所需指标数据作为数据源，包括：

根据经典区域时间维度作为维度的阈值化以默认范围获取指标数据；或根据用户指定指标维度属性，按用户指定的范围获取指标数据；

所述指标数据包含时间维度、省网维度、地区维度及行业维度属性。

所述指标数据特征探索性分析，包括：

集中趋势分析：通过批量计算各指标数据的平均数、中位数、众数，反映各指标数据的集中趋势；

离散程度测定：通过批量计算各指标数据的极差、四分位差、方差、标准差、离散系数，反映各指标数据的离散程度。

所述指标数据分布探索性分析，包括：

通过直方图定性的分析指标数据的分布形式；

计算指标数据的偏度和峰度，根据偏度和峰度通过正态性检验定性判定指标数据是否服从正态分布，对指标数据的分布形状进行度量。

所述指标相关性度量，包括：

计算数据源中两两指标数据的相关性；设定指标数据之间相关度量的上限阈值，依次决定指标数据取舍；指标数据相关性度量通过对协方差/标准差、余弦相似度或等级变量之间的皮尔逊相关系数的计算实现。

所述指标重要程度分析，包括：

对所述指标数据进行指标主成分分析；

对指标数据对应样本打上标签，监督学习建模输出指标数据重要性。

所述通过数值变换对所述筛选和组合后的指标进行连续变换处理或离散变换处理，包括：

通过线性映射函数、非线性映射函数或分段映射函数将指标数据的数值映射到指定区间内；包括：线性映射及非线性映射；或

根据基于孪生网络的深度学习聚类算法、等距、等频、规则分档以及设定分档方法，将连续型的指数数据的数值转变为类别型的指数数据数值。

所述将所述基础指数根据各自权重进行加权计算得到中间指数；根据所述中间指数综合评判得到电力数据产品指数，建立指数体系，包括：

通过基于多方法融合的空间距离权重法、层次分析法、专家打分法、熵值法、主成分分析法或CRITIC权重分析法进行基础指数的权重设定；

通过基础指数加权计算得到多层中间指数；

对中间指数优化、调整、组合得到综合评判的电力数据产品指数。

根据本发明的另一个方面，提供一种电力数据指数快速生成系统，所述系统包括：

指标获取单元，用于从指标库中获取所需指标数据作为数据源；

指标筛选单元，用于根据所述数据源，从指标数据特征、指标数据分布进行指标数据探索性分析、指标相关性度量及指标重要程度分析以进行指标筛选和组合；

基础指数单元，用于通过数值变换对所述筛选和组合后的指标进行连续变换处理或离散变换处理，生成基础指数；

指数体系单元，用于将所述基础指数根据各自权重进行加权计算得到中间指数；根据所述中间指数综合评判得到电力数据产品指数，建立指数体系。

所述系统还包括：

优化调整单元，用于调整指数数据的组合策略以及查看不同指数数据组合策略下的指数运算结果，直至得到满意的指数体系；

指数保存单元，用于将计算完成后的指数体系保存在行式数据库或列式数据库中。

采用上述方案的有益效果是：

本发明方案中，聚焦解决指数的快速生产方向技术能力，实现指标数据分析、基础指数生成、指体系构建等功能。支持用户通过指标数据分布性探索、指标相关性度量和指标重要程度分析来筛选指标和组合指标；支持指标数据内容的数值变换，形成基础指数；支持引导性的指标体系构建，在指数体系编辑界面提供指数体系构建、各层级权重计算工具、初始化的构建方案、案列示范功能；支持用户通过选择指数，计算指数权重，确定层级关系构建指数体系。

本发明方案针对电力体系中的指标多、指数版本管理缺乏、指数权重设计不合理等业务现状，以适用电力企业数据生态环境为出发点，构建指数快速生成的方案。本发明方案分为三个模块，第一模块是指标数据分析，包括4个功能，分别为指标获取、指标数据探索分析、指标相关性度量、指标重要程度分析；第二模块为基础指数生成，包括2个功能，分别为连续变换、离散变换；第三模块为指数体系构建，包含5个功能，分别为指数权重计算工具、指数优化调整、指数保存、方案建议、案例示范。本发明方案首先从指标库中获取所需的指标数据作为数据源，从指标数据特征、指标数据分布进行指标数据探索性分析，指标相关性度量以及指标重要程度分析以进行指标筛选和组合；然后通过数值变换工具，对指标进行连续变换处理或者离散变换处理，生成基础指数；最后将指数通过拖拽组合形成指数体系。

附图说明

图1是本发明实施例提供的一种指数体系结构示意图。

图2是本发明实施例提供的一种电力数据指数快速生成方法原理流程图。

图3是本发明实施例提供的一种直方图形状查询图。

图4是本发明实施例提供的一种电力指标数据箱线图。

图5是本发明实施例提供的一种指数快速生成实施例流程图。

图6是本发明实施例提供的一种电力数据指数快速生成系统结构示意图。

图7是本发明实施例提供的一种基于孪生网络的深度学习聚类算法示意图。

图8是本发明实施例提供的一种基于多方法融合的空间距离权重法示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

本发明针对电力体系中的指标多、指数版本管理缺乏、指数权重设计不合理等业务现状，以适用电力企业数据生态环境为出发点，构建指数快速生成的方案。本方案可以分为三个模块，第一模块是指标数据分析，包括4个功能，分别为指标获取、指标数据探索分析、指标相关性度量、指标重要程度分析。第二模块为基础指数生成，包括2个功能，分别为连续变换、离散变换。第三模块为指数体系构建，包含5个功能，分别为指数权重计算工具、指数优化调整、指数保存、方案建议、案例示范。首先从指标库中获取所需的指标数据作为数据源，从指标数据特征、指标数据分布进行指标数据探索性分析，指标相关性度量以及指标重要程度分析以进行指标筛选和组合；然后通过数值变换工具，对指标进行连续变换处理或者离散变换处理，生成基础指数；最后将指数通过拖拽组合形成指数体系。

本发明实施例提出了一种电力数据指数快速生成方法及系统，包括一套完整的电力指数生成流程。

在算法创新层次上，分档方法中，一般的分档方法多应用传统统计学与传统机器学习的思路，使用K-Means、层次聚类、DBSCAN、谱聚类等众所周知的算法。随着深度学习的兴起，深度学习和聚类的结合也产生了一个新的方向，即深度聚类，使用深度学习和聚类的思想融合，通过调整网络结构和改变损失函数，利用深度学习强大的特征提取能力解决问题。本发明结合具体场景，设计了基于深度聚类的孪生网络模型结构以解决分档问题。

在进行基础指数的权重设定过程中，一般采用层次分析法、专家打分法、熵值法、主成分分析法或CRITIC权重分析法等方法，这些方法各有优点，但是缺乏融合各方法优点的权重设定方法，本发明结合具体场景，设计了一种基于多方法融合的空间距离权重法，将空间距离的概念与多方法融合相结合，更好地进行权重的设置。

本发明涉及指数体系包含众多指数，本发明将指数分为基础指数、中间指数、电力数据产品指数三类，具体请参见图1。其中基础指数是从指标库中获取的指标经过数值变换以后得到的指数，只有一层；中间指数是多个基础指数经过加权计算以后得到的指数，可以多层；电力数据产品指数综合反映复杂的现象，以分数的形式快速评判好坏的指数，只有一个。本发明方案能够帮助使用者快速生成所需指数。

本发明中指数快速生成的方案本质上是一种针对个体指数进行快速生成的工具，可以在指数生成过程中进行多样化的分析与验证，通过指标数据分析、基础指数生成、指数体系构建等功能过程，生成所需且最为合理的指数。

以下结合附图对本发明进一步说明。

如图2所示，为本发明的实施例1提供的电力数据指数快速生成方法原理流程图，具体如下：

步骤11，从指标库中获取所需指标数据作为数据源。

本发明中，不进行指标的生成，而是直接从指标库中获取所需要的指标数据，作为数据源，所有指标均在指标管理完成计算。

接收的指标数据包含时间维度、省网维度、地区维度、行业维度属性。所选取的数据范围为指定维度下的结果，维度选定通过以下两种方式：

根据经典区域，时间维度作为维度的阈值化，以默认范围获取数据；

用户特别指定指标维度属性，按用户指定的范围获取数据。

步骤12，根据所述数据源，从指标数据特征、指标数据分布进行指标数据探索性分析、指标相关性度量及指标重要程度分析以进行指标筛选和组合。

本发明实施例中，指标数据探索性分析，为从数据入手展开分析，帮助用户筛选指标，确定数值变换方式，此步骤分为指标数据特征探索和指标数据分布探索。

指标数据特征探索主要包括集中趋势分析和离散程度测定。

集中趋势分析是通过批量计算各指标平均数、中位数、众数，反映各指标数据的集中趋势。

其中，平均数包括算数平均数、几何平均数以及调和平均数，算术平均数是在一组数据中所有数据之和再除以数据的个数；几何平均数是n个观察值连乘积的n次方根；调和平均数是数值倒数的平均数的倒数；众数是一组数据中出现频数最多、频率最高的变量值；中位数是将总体各单位标志值按大小顺序排列后，指处于数列中间位置的标志值。

离散程度测定是通过批量计算各指标极差、四分位差、方差、标准差、离散系数(变异系数)，反映各指标数据的离散程度。极差、四分位差、方差、标准差、离散系数(变异系数)可反映指标数据的离散程度，值越大，代表指标数据的离散程度越大，计算方法如下：

极差：R＝X_max-X_min

其中：

X_max为指标X的最大值；

X_min为指标X的最小值。

方差：

其中：

σ为指标X的标准差；

N为指标X的样本个数；

x为指标X中的任一样本值；

为指标X的平均值。

标准差：

其中：

σ为指标X的标准差；

N为指标X的样本个数；

x为指标X中的任一样本值；

为指标X的平均值。

离散系数：

其中：

V_σ为指标X的离散系数；

σ为指标X的标准差；

为指标X的平均值。

箱线图：又称为盒须图、盒式图、盒状图或箱线图。箱线图是一张图表，可以很好地指示数据中的值如何分布，尽管与直方图或密度图相比，箱线图似乎是原始的，但它们具有占用较少空间的优势，这在比较许多组或数据集之间的分布时非常有用。箱线图是一种基于五位数摘要(“最小”，第一四分位数(Q1)，中位数，第三四分位数(Q3)和“最大”)显示数据分布的标准化方法。具体请参见图4，为电力指标数据箱线图，可以很好地指示数据中的值如何分布，是一种基于五位数摘要(“最小”，第一四分位数(Q1)，中位数，第三四分位数(Q3)和“最大”)显示数据分布的标准化方法。

其中，outliers：小于Minimum(最小值)或大于Maximum(最大值)的值，视为离群点；Minimum：最小值，等于Q1-1.5*IQR；Q1:1/4分位数；Median：中位数；Q3：3/4分位数；IQR：Q3-Q1，表示四分位距；Maximum：最大值，等于Q3+1.5*IQR。

指标数据分布探索。提供了直方图工具可视化探索分布形式，总结常见的直方图分布形式，提供help图表供用户查询，help图表针对不同分布形式给出其所属分布类型及数值变换方法的建议。具体直方图工具参见图3。

本发明实施例计算指标数据的偏度和峰度，根据偏度和峰度设计正态性检验方法定性判定指标数据是否服从正态分布，如果服从正态分布，则建议使用sigmoid映射对指标数据进行数值变换。

直方图探索分布形式。通过直方图可以定性的分析指标数据的分布形式，直方图构建方法是将值的范围分段，即将整个值的范围分成一系列间隔，然后计算每个间隔中的样本个数。这些值通常被指定为连续的，不重叠的变量间隔，间隔必须相邻，并且通常是相等的大小。设计对应的统计函数，用户调用后展示指标数据分布的直方图。

直方图绘制中有一个关键参数bins，代表直方图分箱的个数，如果使用的箱数太少，则直方图并不能很好地描绘数据。如果有太多的垃圾箱，则会出现断梳的外观，也不会给人以分布感。本实施例提供如下划分算法进行分bin：

(i)scott算法：此算法适用于数据接近正态分布，也适用于大多数的其他分布，

其中x表示指标，std(x)表示对指标x求标准差，N表示指标x的样本个数；

(ii)Freedman-Diaconis算法：该算法对数据中的离群值不太敏感，可能更适用于重尾分布的数据，

其中x表示指标，IQR是指标x的四分位间距，IQR＝指标x的3/4分位数-指标x的1/4分位数，N表示指标x的样本个数；

(iii)Sturges算法：该算法因其简单性而广受欢迎，

其中N表示指标x的样本个数；

(iv)Sqrt算法：该算法是一个广泛用于其他软件包的简单规则，

其中N表示指标x的样本个数。

对于非正态分布的指标数据，通常是由多种因素以及多种分布耦合而成，很难判定指标数据具体服从哪一种分布。提供直方图工具描绘指标数据分布形状，并提供如图3所示针对直方图分布形式，给出数值变换方法的建议。

正态性度量。通过直方图可以可视化展示指标数据的分布形式，若想定量的分析指标数据的分布形式，则需要对指标数据的分布形状进行度量。

偏度也称为偏态、偏态系数，通过偏态系数分析指标数据分布时左偏分布、右偏分布还是对称分布。

(i)Pearson偏度系数：以标准差为度量单位计算的众数与算数平均数的离差，其计算公式是：

其中：M₀表示指标x的众数，σ表示指标x的标准差，

表示指标x的平均值。

SK通常取值为-3～+3之间，其绝对值大，表明偏斜程度大反之表明偏斜程度越小。

当SK＝0时，分布为对称分布；

SK<0时，分布呈左偏分布，或称负偏态；

SK>0时，分布呈右偏斜分布，或称为正偏态。

(ii)矩法偏度：Pearson偏度系数的思想比较容易理解，但精度程度不高。矩法偏度计算方法能够弥补这-不足，其计算公式是：

其中：x_i表示指标x的某一个样本，

表示指标x的平均值，σ表示指标x的标准差，n表示指标x的第n个样本。

当SK＝0时，分布为对称分布；

SK<0时，分布呈左偏分布，或称负偏态；

SK>0时，分布呈右偏斜分布，或称为正偏态。

峰度也称为峰态系数，峰态系数就是反映数据分布峰值的高低，可以用来说明数据分布曲线的顶端尖削或扁平程度。以正态分布为参照标准，比正态分布尖削的分布为尖峰分布，比正态分布扁平的分布为平顶分布。

峰度的测量指标，常常可用标准差的四次方除以四阶中心矩的方法来计算，计算公式是：

其中：x_i表示指标x的某一个样本，

当β＝3时，数据的分布峰度表现为与正态相同；

当β>3时，为尖顶分布，表明数据分布曲线的顶部较正态分布曲线更为陡峭，且越大，顶部就越陡峭；

当β<3时，为平顶曲线，表明数据分布在众数附近比较分散，使得频数分布曲线的峰顶较正态分布曲线平缓，且值越小，顶部就越加平坦。

正态性检验。正态分布或近正态分布的指标，呈现中间数值多，两侧数值少的特点，可借助非线性映射方法(sigmoid)对中间区域拉大距离，两侧进行缓和处理，进行指标数据的连续变换。本通过正态性检验方法首先判定指标数据是否服从正态分布，然后默认对正态分布的指标进行sigmoid数值变换。

此外如果用户做T检验、方差分析、相关分析以及线性回归等操作，也要求指标数据服从正态分布或近似正态分布，也可调用方法检测指标数据是否符合正态分布。

本发明实施例设计的正态性检验方法步骤如下：

(1)计算指标数据的偏度和峰度；

(2)通过计算偏度和峰度的Z评分(Z-score)；

偏度Z-score＝偏度值÷偏度值的标准差

峰度Z-score＝峰度值÷峰度值的标准差

(3)在α的检验水平下，偏度Z-score和峰度Z-score是否满足假设条件所限制的变量范围，若都满足则可认为服从正态分布，若有一个不满足则认为不服从正态分布。

例如，一个指标的峰度值是5.166，峰度标准差是0.425，检验水平α＝0.05，Z(α)＝1.645，峰度Z-score＝5.166/0.425，大于Z(α)，因此判定该指标不符合正态分布。

指标相关性度量。指数体系中同层次的指数应相互独立，这样才能保证对同一目标不会重复计算，同时各指标的相互独立也是各种加权法的前提。

指标相关性分析可以计算指标库中两两指标的相关性，代表着二者正相关、不相关或者负相关，为了保证指标之间的独立性，给定指标之间相关度量的上限阈值，指标之间的相关性应该不超过该上限，然后依次决定指标取舍。

指标相关性度量通过以下三种方式实现：

Pearson相关系数：协方差/标准差

协方差本身就可以反映两个随机变量的相关程度，但会受到变量本身离散程度的影响，因此Pearson相关系数用协方差/标准差来度量两个变量的相关性。

其中：其中X，Y分别表示指标X以及指标Y，σ_X、σ_Y分别表示指标X的标准差以及指标Y的标准差，cov(X,Y)表示指标X与指标Y之间的协方差。

皮尔逊相关系数是一个介于-1和1之间的值，当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系。

余弦相似度：两个向量的夹角余弦值

其中：其中X，Y分别表示指标X以及指标Y的向量形式，corr(X,Y)表示X向量与Y向量的相似度，cos(X,Y)表示X向量与Y向量的余弦相似度，σ_X、σ_Y分别表示指标X的标准差以及指标Y的标准差，X·Y表示X向量与Y向量的内积，||X||与||Y||分别表示X向量与Y向量的模。

余弦相似度给出的相似性范围是[-1,1]，-1意味着两个向量指向的方向正好截然相反，1表示它们的指向是完全相同的，0通常表示它们之间是独立的，而在这之间的值则表示中间的相似性或相异性。

Spearman秩相关系数：等级变量之间的皮尔逊相关系数。

Spearman秩相关系数是一种无参数(与分布无关)检验方法，用于度量变量之间联系的强弱。在没有重复数据的情况下，如果一个变量是另外一个变量的严格单调函数，则Spearman秩相关系数就是+1或-1，称变量完全Spearman秩相关。

对原始数据(x_i,y_i)按从大到小排序，记(x’_i，y’_j)为原始(x_i,y_i)在排序后列表中的位置，(x’_i，y’_i)称为(x_i,y_i)i的秩次，秩次差d_i＝x’_i，y’_i。Spearman秩相关系数为：

其中：n表示样本个数，d表示秩次差

计算出两个变量的秩相关系数后，通过查阅秩相关系数检验的临界值表，即可判定二者是否相关。

指标重要程度分析。指标重要程度分析可以按重要程度对指标进行排名，帮助用户从指标库中找出重要的指标。指标重要程度分析通过以下两种方式实现：

指标主成分分析(PCA)用精炼的一句话概括就是：将一组可能线性相关的变量通过正交变换，变换成一组线性无关的变量。依据最大投影方差或者最小重构代价，找到一组线性无关的正交基(主成分)，如果要降到r维就是找r个主成分。

值得注意的是指标主成分分析后的数据集已经被重构，提取出的主成分是重构的线性无关空间中的主成分，并不能进行解释，无法说明每个主成分具体代表哪个指标，因此该方法的输出结果不具有可解释性。

主成分分析通过以下步骤实现：

输入：m个用电企业，n个指标的数据集；

输出：m个用电企业，r个指标的数据集(r<n)；

(i)将m行n列数据集按列进行去均值化后转为矩阵X；

(ii)求解矩阵X的协方差矩阵

(iii)求协方差矩阵C的特征值和特征向量；

(iv)将特征向量按对应特征值从大到小的顺序，从左到右按列排成矩阵，并取前r个特征向量组成P矩阵；

(v)Y＝XP即为降到r维后的数据。

监督学习建模输出指标重要性：该方法的关键是用户对指标数据集中用电企业对应的样本打上标签，按监督学习进行处理。

对用户打标签的数据集，建模训练树模型(决策树/boosting树/bagging树)，树模型训练完成以后可以输出重要性最高的topN个指标。

本方法应用的前提是用户人工对数据打标签，适用于指标较多，业务复杂的场景，输出结果的可靠性比较依赖于用户打标签的准确性。

步骤13，通过数值变换对所述筛选和组合后的指标进行连续变换处理或离散变换处理，生成基础指数。

基础指数生成是指基于指标的指数生成。指数生成的本质是指标数据数值空间在指定兴趣空间的数值变换。指标选择的数值变换方式受到指标数据的分布、业务需求、指标与其他指标相关性、本指标重要程度、电力指数提供的数值变换工具和计算性能要求的影响。

指数通常是在特定值域内进行分析或进行等级设计。指标数据内容变换到指数，需要很多工具，即数值变换工具，本方案整理此处理过程中的常见方法，提供丰富的工具供开发人员针对指标进行连续变换处理或者离散变换处理。

连续变换是通过线性映射函数、非线性映射函数或分段映射函数将指标数值映射到指定区间内，本发明实施例提供以下方法。

线性映射。

最大-最小连续变换：X*＝(x-min)/(max-min)，将指标数值映射到[0,1]区间，可以消除量纲的影响，适用于指标数值不符合正态分布或者希望保留指标数值中标准差反映的潜在信息。用此方法处理时要注意离群点的影响，若某个指标数值过大，容易导致连续变换后的各值都接近0，且相差不大；

任意区间连续变换：

计算系数k＝(b-a)/(max-min)

X*＝a+k*(x-min)，将指标数值映射到[a,b]区间，可以消除量纲的影响，适用于指标数值不符合正态分布或者希望保留指标数值中标准差反映的潜在信息。用此方法处理时要注意离群点的影响，若某个指标数值过大，容易导致连续变换后的各值都接近0，且相差不大；

分段线性函数映射：分段线性函数映射方法不唯一，用户可定义多个分段，每个分段使用不同的线性函数映射，定义方法参照下式。

其中：X^*表示指标X经过分段线性函数映射后的结果，x₁，x₂，x₃表示指标X的分段区间上的边界值，k₁，k₂表示最缩放系数，b₁，b₂b表示偏置项。

非线性映射。

sigmoid非线性映射：指标数值映射到(0,1)区间，指标数值接近正态分布，呈现中间数值多，两侧数值少的特点，sigmoid对中间区域拉大距离，两侧进行缓和处理。

参数说明：

A：将指标数据数值变换到(0,A)区间；

μ：指标数据的期望；

α：线性部分的权值参数。

参数具体配置策略：

指数评分默认采用百分制，A默认取100，支持用户自定义设置其它区间；

用户选择行业平均数或者中位数作为μ值；

指定某一指标数据与数值变换后的结果之间的映射，根据映射函数求解α。例如指定全部样本中80％分位数经过数值变换后的分数是80分，进而得到α的值。

离散变换。

离散变换是根据等距、等频、规则分档以及自定义分档方法，将连续型的指数数值转变为类别型的指数数值。

等距。将连续型变量的取值范围均匀划成n等份，每份的间距相等。例如，企业月用电量是一个连续型变量，可以从1万千瓦到100万千瓦。采取等距切分可以把10万千瓦以下的企业划分成一组，10万-20万千瓦的企业为一组，20万-30万千瓦年的企业为一组..，以此类推，组距都是10万千瓦。

等频。把观察点均匀分为n等份，每份内包含的观察点数相同。还取上面的例子，例如共有100万企业，等频分段需要先把企业用电量按顺序排列，排列好后可以按5万家企业一组，把全部企业均匀分为20个等级。

本发明实施例中，基于孪生网络的深度学习聚类算法分档：

采用基于孪生网络的深度学习聚类算法来做分档任务，具体过程如下：

数据

输入一个样本对<x_i,xx_i>，以及伪标签y_ij(样本总数为n)，y_ij的计算方法如下：

卷积层

把n个输入数据{x_i,i＝1,2,...,n}同时输入神经元，用w_ij表示输入数据x_i与j神经元连接的权重值，b_j表示神经元的内部状态即偏置值。神经元的输出y_j与输入x_i之间的对应关系可用下式表示：

其中f(·)为激活函数，具体公式为：

门控循环单元层

设定隐藏单元个数为h，给定时间步为t，输入为x_t，上一时间步隐藏状态为h_t-1，重置门R_t和更新门z_t的计算公式如下：

R_t＝σ(x_tw_xr+h_t-1w_hr+b_r)

z_t＝σ(x_tw_xz+h_t-1w_hz+b_z)

其中，σ为激活函数，w_xz，w_xr，w_hz和w_hr为权重矩阵，b_r和b_z为偏置量。

为候选隐藏状态，则隐藏状态的更新机制为

其中，w_xh和w_hh为权重矩阵，b_h为偏置量。

全连接层

全连接层通常表示为

y＝xw_xf+b_f

其中，x表示上一层的输出，y表示本层的输出，w_xf为权重，b_f为偏置量。

对比损失函数：神经网络映射用fw表示，则孪生网络的损失函数为：

其中，w是网络权重，y_ij按上式计算得到，f_w为神经网络计算输出，m为超参数，其含义是样本间距离的临界值。

整体网络结构为孪生网络，具体网络结构如图7所示，对输入数据进行训练，得到分档结果。

使用基于孪生网络的深度聚类算法是本实施例的创新点之一。通过引入孪生网络的结构，先构造样本对，再进入包含卷积层，门控循环单元，全连接层的孪生网络，然后使用对比损失函数进行模型训练，从而得到最终的分档结果。

规则分档。

Kmeans聚类分档：Kmeans法将指标数据聚为K类，排序聚类中心，以相邻两聚类中心的中点作为分档边界点，进而指数数值离散变换。

Kmeans聚类通过以下步骤实现：

(i)采用等距法设定k-means聚类算法的初始中心，得到聚类中心；

(ii)在得到聚类中心后将相邻的聚类中心的中点作为分类的划分点，

将各个对象加入到距离最近的类中，从而将数据划分为多个区间；

(iii)重新计算每个聚类中心，然后重新划分数据，直到每个聚类中心不再变化，得到最终的聚类结果。

二值化分档：指标数值映射为二值{0,1}，阀值化得到boolean型数据，适用于对指标数值做布尔判断。

最小熵分档：

一种概念上的简单方法是以极大化区间纯度的方式确定分割点，然而实践中这种方法可能需要人为确定区间的纯度和最小的区间大小。为了解决这一问题，基于熵的方法是一种优秀的离散变换方法，下面给出基于熵的方法。

首先，需要定义熵(entropy)。设k是不同的类标号数，m_i是某划分的第i个区间中值的个数，而m_ij是区间i中类j的值的个数。第i个区间的熵e_i由如下等式给出：

其中，p_ij＝m_ij/m_i是第i个区间中类j的概率(值的比例)。该划分的总熵e是每个区间的熵的加权平均，即:

其中，m是值的个数，w_i＝m_i/m是第i个区间的值的比例，而n是区间个数。直观上，区间的熵是区间纯度的度量。如果一个区间只包含一个类的值(表示该区间非常纯)，则熵为0并且不影响总熵。如果一个区间中的值类出现的频率相等(该区间尽可能不纯)，则其熵最大。

以最小熵分档通过以下步骤实现：

(i)开始将指标数据切分成两部分，让两个结果区间产生最小熵，该技术只需要把每个值看做可能的分割点即可，因为假定区间包含有序值的集合；

(ii)然后，取一个区间，通常选取具有最大熵的区间；

(iii)重复此分割过程，直到区间的个数达到用户指定的个数，或者满足终止条件。

自定义分档。

是指本发明实施例支持用户根据业务经验或者常识等自行设定划分的区间，然后将指标数据自定义分档到各个区间中，实现指标数据的离散变换。

步骤14，将所述基础指数根据各自权重进行加权计算得到中间指数；根据所述中间指数综合评判得到电力数据产品指数，建立指数体系。

支持用户将指数通过拖拽组合形成指数体系，详见图1。

指数体系中包含众多指数，本方案将指数体系中的指数分为以下三类：

(1)基础指数：上一节实现的就是基础指数功能设计，基础指数是从指标库中获取的指标经过数值变换以后得到的指数，只有一层；

(2)中间指数：中间指数是多个基础指数经过加权计算以后得到的指数，可以多层；

(3)电力数据产品指数：综合反映复杂的现象，以分数的形式快速评判好坏的指数，只有一个。

用若干个指数进行综合评估时，各个指数对评价对象的作用，从对评估目的的影响这个角度来说，并不是一样重要的，因此在其他指数合成该指数时不同指数对该指数结果的影响权重就需要指定。提供层次分析法、专家打分法来计算指数的权重，还可扩展其它指数权重计算方法。

层次分析法。

层次分析法提供了定量分析定性事件的一种简便技术，同时也是客观描述人们主观判断的一种有效的方法，它可以把多元决策中定性与定量因素统一起来，即把统计或观测数据、专家意见以及分析者的主观判断有效的结合起来。该方法把复杂的问题分解为一个有序的阶梯层次结构，通过比较和判断，计算各种决策方案的相对重要程度来对各个方案的优劣进行排序。层次分析法的核心是计算各决策方案的相对重要性，而指数评价体系中的权数正是一种重要性的量度。

专家打分法。

专家打分法通过函询专家，专家对指数重要性的函询调查表进行打分，归纳统计后，再次反馈给各专家并再次征求意见，然后再归纳统计、反馈，直至得到一致的意见。

可扩展更多的指数权重设置方法，包括但不限于以下方法：

(i)熵值法；

熵权法的基本思路是根据指标变异性的大小来确定客观权重。一般来说，若某个指标的信息熵越小，表明指标值得变异程度越大，提供的信息量越多，在综合评价中所能起到的作用也越大，其权重也就越大。相反，某个指标的信息熵越大，表明指标值得变异程度越小，提供的信息量也越少，在综合评价中所起到的作用也越小，其权重也就越小。

熵权法实现过程如下：

(1)数据标准化：首先将各个指标进行去量纲化处理

假设给定了m个指标：

X₁，X₂，...，X_m

其中：

X_i＝{x₁，x₂，...，x_n}

假设对各指标数据标准化后的值为

Y₁，Y₂，...，Y_m

那么

(正向指标时)

或

(负向指标时)

(2)求各指标在各样本下的比值

计算第j项指标在第i个样本中占该指标的比重，即计算该指标的变异大小。

其中p_ij表示第j项指标在第i个样本中占该指标的比重，Y_ij表示第j项指标在第i个样本下的数值。

(3)求各指标的信息熵

其中p_ij表示第j项指标在第i个样本中占该指标的比重，n表示样本的个数。

(4)计算各指标的权重

根据信息熵的计算公式，计算出各个指标的信息熵为E1，E2，...，Em

然后通过信息熵计算各指标的权重：

其中m表示指标的个数，Ej表示第j个指标的信息熵。

(ii)CRITIC权重法。

CRITIC法是一种比熵权法和标准离差法更好的客观赋权法。它是基于评价指标的对比强度和指标之间的冲突性来综合衡量指标的客观权重。考虑指标变异性大小的同时兼顾指标之间的相关性，并非数字越大就说明越重要，完全利用数据自身的客观属性进行科学评价。

CRITIC权重法实现过程如下：

(1)数据标准化：首先将各个指标进行去量纲化处理

假设给定了m个指标：

X₁，X₂，...，X_m

其中

X_i＝{x₁，x₂，...，x_n}

假设对各指标数据标准化后的值为

Y₁，Y₂，...，Y_m

那么

(正向指标时)

或

(负向指标时)

(2)计算指标变异性

通过标准差的形式来表示指标的变异性。

其中

表示第j项指标的平均值，S_j表示第j项指标的标准差，x_ij表示第j项指标在第i个样本下的数值，n表示样本个数。

(3)计算指标冲突性

用相关系数进行表示

其中R_j表示第j项指标的冲突性，r_ij表示指标i与指标j之间的相关系数，与其他指标的相关性越强，则该指标就与其他指标的冲突性越小，反映出相同的信息越多，所能体现的评价内容就越有重复之处，一定程度上也就削弱了该指标的评价强度，应该减少对该指标分配的权重，m表示指标的个数。

(4)计算信息量

然后通过信息熵计算各指标的权重：

其中C_j表示第j项指标的信息量，S_j表示第j项指标的标准差，R_j表示第j项指标的冲突性。C_j越大，第j个评价指标在整个评价指标体系中的作用越大，就应该给其分配更多的权重。

基于多方法融合的空间距离权重法。

定义以上各方法生成的各项指标为x，其中指标共有N个，方法共有m种(如上文提到的熵值法，CRITIC权重法，主成分分析法等)具体如下表1所示。

表1

指标1权重

指标2权重

指标3权重

指标4权重

..

指标N权重

方法一

x11

x12

x13

x14

x1N

方法二

x21

x22

x23

x24

x2N

方法三

x31

x32

x33

x34

x3N

…

方法m

xm1

xm2

xm3

xm4

xmN

(1)每种方法求出的指标权重可以组成一个向量，如方法一的指标权重组成的向量为[x₁₁，x₁₂，x₁₃，x₁₄，...，x_1N]。对于不同方法，求解向量之间的余弦值，得到余弦值的集合{θ}。

(2)在得到的所有余弦值中找出一个最小余弦值θ_min，并对最小余弦值对应的两种方法(方法a和方法b)的不同指标权重求平均，得到

将平均值b_i作为各指标的权重基值。

(3)确定每个指标的距离系数D_i。选定指标i，首先计算任意两个方法(方法a和方法b)的指标权重的曼哈顿距离

然后在所有的曼哈顿距离中找出最小曼哈顿距离

每个指标的距离系数D_i由下式给出：

(4)将各指标的权重基值b_i与距离系数D_i相乘得到新指标权重P_i＝b_i·D_i。

(5)将新指标权重P_i进行归一化处理，

则归一化后得到的

为多方法融合后的指标权重。

本实施例是本发明的创新点之一，如图8所示，使用距离系数去约束各方法，从而达到更好的方法融合效果。

指数优化调整。

进一步的，用户构建指数体系是不断调整优化的过程，此过程中用户会不断调整指数组合策略以及查看不同指数组合策略下的指数运算结果，直至得到满意的指数体系。指数体系编辑界面工具帮助用户调整指数组合策略，开发指数试运行调优功能帮助用户在指数体系中的任一指数节点试运行指数运算，比对不同策略的指数运算结果。

指数体系编辑调整。

指数体系编辑界面工具，不仅支持用户将指数通过拖拽组合形成指数体系，还支持指数、指数依赖关系的加入、删除、修改，实现指数任意组合构建指数体系，用户确认指数体系构建完成以后保存各个指数的版本，记录版本变更明细及变更人员。

指数试运算调优。

用户调整优化指数体系时，需要比对调整前后指数运算结果，指数试运算调优功能，可对指数试运算，用户指定某一个指数，点击试运算后可以进行指数运算，运算结果支持输出到csv/tsv文件或保存到数据库，用户可查看不同指数组合策略生成指数的运算结果，根据运算结果对指数进行优化调整。

指数保存。

指数计算生成以后需放入到存储介质中进行保存，存储策略有以下：

行式数据库存储：选用关系型数据库，每一行代表一个用电企业，每一列代表一个指数；

列式数据库存储：选用非关系型数据库，每一行代表一个用电企业，每一列代表一个指数。

考虑到频繁的有指数发布/下架，指数处于变动之中，且数据量大，常见的业务场景是数据分析而非业务，需要对指标进行一些聚合统计查询，指数存在多个版本，故本方案采用的指标保存方式为列式数据库存储。

指数数据生成以后保存在Hbase列式存储数据库中，rowkey对应的是用电企业编码，列族对应的是指数层级，列名(key)对应的是指数编号+指数元数据表中的最新版本号，值(value)对应的是指数数据，时间戳记录指数计算生成的时间。

本发明实施例提供层次分析的建议方案协助用户构建指数体系，建议用户根据指数的内涵，对其进行层次分析，进而对该层进行细致的指数构建，每一层内的指数构建依据该层的核心进行下钻分解，所分解的指数相对独立，组合在一起是对该层核心的完整表达。

如图5所示，为本发明实施例提供的一种指数快速生成实施例流程图，其中，

指数快速生成流程共包含指标获取、指标数据分析、基础指数生成、电力数据产品指数生成四个步骤。

步骤一：指标获取。该方法及装置不进行指标的生成，而是直接从指标库中获取所需要的指标数据，作为数据源。

步骤二：指标数据分析。在进行基础指数生成之前，需要对指标数据进行分析，目的是筛选重要指标进行指数计算，以及确定基础指数生成时的数值变换方法。可选择的指标数据分析有指标数据探索性分析、指标相关性度量以及指标重要程度分析三种。如果是为了筛选重要指标，可以进行指标相关性分析或指标重要程度分析；如果是为了确定基础指数生成的数值变换方法，可以进行指标数据探索性分析。

步骤三：基础指数生成。基础指数生成是指基于指标的指数生成，输入是指标数据，输出是经过数值变换后的基础指数。基于指标数据分析结果，筛选出重要的指标，选择适当的数值变换方法，生成基础指数。

步骤四：电力数据产品指数生成。电力数据产品指数是综合反映复杂的现象，以分数的形式快速评判好坏的指数，即本发明最终要计算得到的指数。输入是基础指数，输出是电力数据产品指数，基于指数体系，通过基础指数加权求和得到中间指数，再基于中间指数加权求和得到电力数据产品指数，或者直接通过基础指数直接加权求和得到电力数据产品指数。

如图6所示，为本发明提供的电力数据指数快速生成系统结构示意图，其中包括：

指标获取单元21，用于从指标库中获取所需指标数据作为数据源；

指标筛选单元22，用于根据所述数据源，从指标数据特征、指标数据分布进行指标数据探索性分析、指标相关性度量及指标重要程度分析以进行指标筛选和组合；

基础指数单元23，用于通过数值变换对所述筛选和组合后的指标进行连续变换处理或离散变换处理，生成基础指数；

指数体系单元24，用于将所述基础指数根据各自权重进行加权计算得到中间指数；根据所述中间指数综合评判得到电力数据产品指数，建立指数体系。

所述系统还包括：

优化调整单元25，用于调整指数数据的组合策略以及查看不同指数数据组合策略下的指数运算结果，直至得到满意的指数体系；

指数保存单元26，用于将计算完成后的指数体系保存在行式数据库或列式数据库中。

综上所述，本发明方案中，针对电力企业用电评估指数体系中的指标多、指数版本管理缺乏、指数层级权重设计合理性、基础指标重复计算等业务痛点问题，设计了一种基于电力数据进行指数快速生成的方法及装置。该装置聚焦解决指数的快速生产方向技术能力，实现指标数据分析、基础指数生成、指体系构建等功能。支持用户通过指标数据分布性探索、指标相关性度量和指标重要程度分析来筛选指标和组合指标；支持指标数据内容的数值变换，形成指数；支持引导性的指标体系构建在，在指数体系编辑界面提供指数体系构建、各层级权重计算工具、初始化的构建方案、案列示范功能；支持用户通过选择指数，计算指数权重，确定层级关系构建指数体系。

根据特定的实施方式对本发明详细进行了说明，但上述的实施方式仅为例示，本发明不被上述实施方式限定。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种电力数据指数快速生成方法，其特征在于，所述方法包括：

从指标库中获取所需指标数据作为数据源；

2.如权利要求1所述的方法，其特征在于，所述从指标库中获取所需指标数据作为数据源，包括：

3.如权利要求1所述的方法，其特征在于，所述指标数据特征探索性分析，包括：

4.如权利要求3所述的方法，其特征在于，所述指标数据分布探索性分析，包括：

通过直方图定性的分析指标数据的分布形式；

5.如权利要求1所述的方法，其特征在于，所述指标相关性度量，包括：

6.如权利要求5所述的方法，其特征在于，所述指标重要程度分析，包括：

对所述指标数据进行指标主成分分析；

7.如权利要求1所述的方法，其特征在于，所述通过数值变换对所述筛选和组合后的指标进行连续变换处理或离散变换处理，包括：

根据基于孪生网络的深度学习聚类算法用于分档、等距、等频、规则分档以及设定分档方法；

将连续型的指数数据的数值转变为类别型的指数数据数值。

8.如权利要求1所述的方法，其特征在于，所述将所述基础指数根据各自权重进行加权计算得到中间指数；根据所述中间指数综合评判得到电力数据产品指数，建立指数体系，包括：

通过基础指数加权计算得到多层中间指数；

9.一种电力数据指数快速生成系统，其特征在于，所述系统包括：

10.如权利要求9所述的系统，其特征在于，所述系统还包括：