CN112182026A

CN112182026A - 一种考虑流形排序算法的电网截面数据检索方法

Info

Publication number: CN112182026A
Application number: CN202010946794.6A
Authority: CN
Inventors: 戴承承; 廖敏乐; 李化林; 韦丹静; 陆军; 周利强; 周文杰; 樊高松; 黄重阳; 梅明顺; 梁婷婷; 郭小璇
Original assignee: Chongzuo Power Supply Bureau of Guangxi Power Grid Co Ltd
Current assignee: Chongzuo Power Supply Bureau of Guangxi Power Grid Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-01-05

Abstract

针对在数据检索时多维度查询效率不高，检索结果无法多维度整体匹配的问题，本发明公开了一种考虑流形排序算法的电网截面数据检索方法，该方法将电网截面数据描述成多维向量空间中的对应点，创建加权图模型，通过考虑数据的整体近似流形结构来获得检索结果，使之与源查询之间具有较高的相关性；使用置信传播分配排序分数，提高了检索结果的准确性，有效避免相关性度量对高维数据查询处理的不足。

Description

一种考虑流形排序算法的电网截面数据检索方法

技术领域

本发明提出一种考虑流形排序算法的电网截面数据检索方法，提高了检索结果的准确性，有效避免相关性度量对高维数据查询处理的不足。

背景技术

随着时间的推移区域性电网中众多节点的各种测量数据不断积累，这些数据是建设稳定、可靠、高效智能电网的支撑性元素之一，它不仅反映了行业内部的规律特征，指导电力生产和企业经营管理，还反映着经济社会的发展状况，是未来电力发展的重要资源。怎样利用现有的数据分析技术在海量的电网截面数据中快速检索到有价值的信息，使电力企业为客户提供更好的服务是一个关键问题。

目前，在对海量的信息检索时，准确度、高效性、个性化需求等已成为信息检索的新要求，已经有许多的检索方法、平台和模型。有一种云搜索优化算法，将云的生成、动态运动等自然现象与智能优化算法的思想融合；还有一种基于最佳熵匹配的多通道海量数据快速搜索方法和一种基于用户查询意图识别的Web搜索优化模型；还有人提出了一套包括信息检索、信息抽取和信息过滤在内的智能文本搜索新技术。

这些新的技术和方法，在从大量数据中检索出满足用户查询需求的记录，消耗时间长且精确度不高。现有的大多数方法适合文本数据和Web数据检索。对电网截面数据进行相似性搜索时，传统的关键字匹配和空间访问方法当数据规模过大、维度过高时，其搜索效率将会明显下降，检索结果无法多维度整体匹配。

发明内容

本发明主要解决的问题是：针对在数据检索时多维度查询效率不高，检索结果无法多维度整体匹配的问题，本发明提出一种基于流形排序的电网截面数据检索方法，利用低维的流形子空间中进行数据检索，将电网截面数据描述成多维向量空间中的对应点，创建加权图模型，通过考虑数据的整体近似流形结构来获得检索结果，使之与源查询之间具有较高的相关性；改善原本基于欧式距离的相似度度量，避免海量数据检索中的维度灾难问题。并使用置信传播分配排序分数，提高了检索结果的准确性。

为解决上述技术问题所采用的技术方案是：一种基于流形排序的电网截面数据检索方法，其特征是，它包含有：

(1)利用低维的流形子空间中进行数据检索。流形(manifold)是局部具有欧几里得空间性质的空间，是欧式空间中的曲线、曲面等概念的推广。欧几里得空间就是最简单的流形的实例，一般的流形可以通过把许多平直的片折弯并粘连而成。定义：设M是豪斯多夫空间，若对任意一m点x∈M，则有x在M中的一个邻域U同胚于m维欧几里得空间R^m的一个开集，称M是一个维流形。流形排序过程可直观的描述为把数据描述成欧几里德空间中的向量，并在对应的特征空间中构建加权图模型，对已标记节点赋正值，对其他待排序节点赋零值，然后所有节点通过带权图将它们的分数传播给相临近的节点直到整个网络达到平衡状态，最终根据得分大小排序。传播的排序分数反应了所有数据点间的关系，同一个集群中相距较远的点会有不同的排名分数，距离越近的点会有相似的排序得分。在特征空间中，对于处于相同流形间的样本，它们之间相互影响的程度远远大于位于不同流形结构中的样本。分别采用欧式距离和流形排序方法为query查询样本选择的近邻点。

(2)将电网截面数据描述成多维向量空间中的对应点。区域性电网中众多节点的各种测量数据总和在任意时刻可以看做是一个电网截面。基本定义如下：给定一点集

其中节点x₁到节点x_q代表已知电网截面状态，节点x_q+1代表检索对象数据集合，检索对象与检索条件的相似性由权值矩阵W_ij＝exp[-d²(x_i,x_j)/2σ²]描述。d(x_i,x_j)表示节点对x_i和x_j间的距离，排序函数f:X→R，表示每一个节点x_i对应一个排序值f_i。可以将f看作向量f＝[f₁,f₂,…,f_n]^T。定义向量y＝[y₁,y₂,…y_n]^T，其中元素y_i表示集合X中节点的标记情况，y_i＝1表示节点x_i被标记，否则y_i＝0。以风电监测数据为例，将每一个属性，如风速、环境温度等构成向量空间中的不同维度，全部节点数据组成了一个n×m向量空间，n为节点数，m为每个节点的数据的属性个数。数据集中每条电网截面数据映射到向量空间中不同的数据点。

(3)创建加权图模型。决定检索结果优劣的主要因素之一是加权图构建的质量，它不仅反映了数据特征向量空间中两元素之间的相似性程度，也决定了标记传播的方式和概率。基于加权图构建连接矩阵需要考虑节点和边的连接方式以及边权值的度量定义。传统的流形排序算法中采用连通图来构建带权图，计算每个节点间的两两距离，当数据量大时计算开销较大，为了保证每个点有足够的连接同时保留加权图的稀疏性，采用K-NN图构建加权图模型，计算每个数据节点的K个最近的邻居节点，如果它们是邻居则为两节点间创建一条边。

(4)改善原本基于欧式距离的相似度度量。查询序列之间的关系用节点间的边表示，边上的权值量化数据的相似性，权值越大表示边上两条序列的相似性越大，通常情况下，权值的大小由序列间的成对距离决定，定义距离函数d(x_i,x_j)使用欧氏距离来衡量两近邻点间的距离，计算方法由公式(1)给出；此外，利用高斯核函数来定义矩阵W中边的权重，如公式(2)所示，得到一个查询带权网络模型。

其中，n为特征空间的维数，当带权网络中x_i与x_j存在连边时,得到权值矩阵:

W_ij＝exp[-d²(x_i,x_j)/2σ²] (2)

在电力数据检索中，查询集中只有一个标记节点即源查询节点，未标记数据点的排序得分与其是相关查询的概率成正比例，排序得分越高表示是相关查询的可能性越大。

(5)使用置信传播分配排序分数。置信传播是通过多次迭代计算逐渐得到精确的欲求结果的计算过程。在置信传播开始前，数据集合中源查询序列的置信度设为1；其他设为0，即f(0)＝y，置信传播结束后，未标记样本的排序分数收敛于f^*。当置信传播迭代结束时，节点的置信度不再改变且收敛于f^*，数据集合中每个节点都得到自己的置信度，f^*越高，该节点所代表序列为目标检索数据的概率越大。将f^*值降序排序，对应的节点所代表的序列即为最终检索结果。但是由于涉及到计算逆矩阵，当数据规模较大时，需要的计算开销很大，采用迭代算法的计算效率更优越，所以本方法选择使用迭代方式来计算f^*。将上式用泰勒公式展开可以得到：

f^*＝(1-αS)^-1y

＝y+αSy+αS(αSy)+... (3)

可以从迭代角度理解置信传播分数，根据上面得到的公式(3)可以看出将f^*看做是多项式中一系列无限项的和，第一项中只包含向量y，第二项将源查询点的排序得分传播给它的近邻点，第三项进一步传播排序分数，以此类推，这样未标记的数据将会逐步得到它的排序得分。

本发明的一种基于流形排序的电网截面数据检索方法，利用低维的流形子空间中进行数据检索，将电网截面数据描述成多维向量空间中的对应点，创建加权图模型，通过考虑数据的整体近似流形结构来获得检索结果，使之与源查询之间具有较高的相关性；改善原本基于欧式距离的相似度度量，避免海量数据检索中的维度灾难问题。并使用置信传播分配排序分数，提高了检索结果的准确性。

附图说明

图1为本发明以欧氏距离和流形排序选择的近邻点

图2为本发明多维向量空间

图3为本发明向量空间中的点

图4为Precision-Recall曲线对比图

图5为不同方法的NDCG结果比较

图6为本发明流程框图

具体实施方式

实施例1，一种基于流形排序的电网截面数据查询检索方法，该方法由五部分组成：利用低维的流形子空间中进行数据检索，将电网截面数据描述成多维向量空间中的对应点，创建加权图模型，改善原本基于欧式距离的相似度度量，使用置信传播分配排序分数，提高了检索结果的准确性。下面利用附图和实施例对本发明作进一步说明。

(1)将电网截面数据描述成多维向量空间中的对应点

将数据集中的电力数据映射到向量空间中的对应点,并创建K-NN图。

(2)创建加权图模型

计算K-NN图中节点x_i和x_j之间边的权值W_ij,如果不存在边,则W_ij＝0，从而得到权值矩阵；对权值矩阵进行归一化处理，得到相似度矩阵S＝D^-1/2WD^-1/2，其中D为对角矩阵，对W进行归一化处理可以使传播规则收敛。

(3)迭代计算

f(t+1)＝αSf(t)+(1-α)y (4)

其中α∈[0,1)，α值的大小代表来自相邻节点得分贡献所占比例的大小。

当集合中每个节点的置信度不在更新时迭代完毕，根据最终收敛的相似度值，将对应前n个节点数据返回用户。

(4)使用风电机组的SCADA系统监测数据作为实验数据集，每条数据构成一个截面其中包括平均风速、平均有功功率、总发电量最大值、平均环境温度等多个属性。数据检索效果通过召回率、精确率以及NDCG(Normalized Discount Cumulative Gain)指标来衡量。其中精确率P表示某种rank方法检索出的前n条数据中实际与查询相关的数据比例，如公式(5)其中TP为被模型预测为正的正样本，FP为模型预测为正的负样本；召回率R表示检索在多大程度上是彻底的并且表达了答案集对全部答案的覆盖程度，计算公式为公式(6)，其中FN为被模型预测为负的正样本。实验中通过绘制Precision-Recall曲线来比较不同算法的检索结果，如果某条曲线位于另一条曲线的上方，那么位于上方曲线对应的方法就要更好。

在本算法中需要确定四个参数值，平滑参数α用来控制来自于先验的得分和来自邻居结点得分对最终排序得分的贡献,α值越大表示来自于相邻的节点得分贡献所占比例越大；热核参数σ；构建加权图模型的近邻点个数K，参数取值设置如表1所示：

表1参数设置

实验中将本算法和原Manifold Ranking方法、关键词检索以及基于模糊粗糙集理论的检索方法进行了比较，得出的Precision-Recall曲线。从图中可以看出，在查询准确率以及召回率方面，本方法提出的基于流行排序的检索方法效果优于其他方法，这是由于关键词匹配算法等只能获得关键词对应的检索结果，对具有较多属性的多维数据来讲，检索结果无法多条件满足查询，从而降低了检索的覆盖率和准确率；相对于原ManifoldRanking算法的连通图模型，本方法采用K-NN图构建加权图模型，利用数据内在的全局流形结构来获得查询之间的相关性，改善原本基于每两个数据点的欧式距离计算相似度，降低算法的复杂度，提高了检索效率和准确性。

(5)NDCG在精确度和召回率评价标准的基础上综合考虑检索结果相关性的等级和排序位置的影响权值,用来评价检索结果中排在前面的序列数据的准确性，NDCG值越大表示检索结果越好。采用了NDCG5、NDCG10和NDCG20来衡量本方法在前5、前10和前20个检索结果中的效果，得出的对比实验结果。从实验结果可以看出基于流形排序方法在风电数据前5、10和20个检索结果中的精确度较其他两种方法保持较好的优势，且返回结果数量越多优势越明显，大部分的查询结果令人满意，证实了基于流形排序的检索方法在电力数据查询中的有效性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种考虑流形排序算法的电网截面数据检索方法，其特征是，它包含有：

(1)利用低维的流形子空间进行数据检索：传播的排序分数反应了所有数据点间的关系，同一个集群中相距较远的点会有不同的排名分数，距离越近的点会有相似的排序得分，在特征空间中，对于处于相同流形间的样本，它们之间相互影响的程度远远大于位于不同流形结构中的样本，分别采用欧式距离和流形排序方法为query查询样本选择的近邻点；

(2)将电网截面数据描述成多维向量空间中的对应点：区域性电网中众多节点的各种测量数据总和在任意时刻可以看做是一个电网截面，以风电监测数据为例，将每一个属性，如风速、环境温度等构成向量空间中的不同维度，全部节点数据组成了一个n×m向量空间，n为节点数，m为每个节点的数据的属性个数，数据集中每条电网截面数据映射到向量空间中不同的数据点；

(3)创建加权图模型：基于加权图构建连接矩阵需要考虑节点和边的连接方式以及边权值的度量定义，传统的流形排序算法中采用连通图来构建带权图，计算每个节点间的两两距离，当数据量大时计算开销较大，为了保证每个点有足够的连接同时保留加权图的稀疏性，采用K-NN图构建加权图模型，计算每个数据节点的K个最近的邻居节点，如果它们是邻居则为两节点间创建一条边；

(4)改善原本基于欧式距离的相似度度量：查询序列之间的关系用节点间的边表示，边上的权值量化数据的相似性，权值越大表示边上两条序列的相似性越大，通常情况下，权值的大小由序列间的成对距离决定，定义距离函数d(x_i,x_j)使用欧氏距离来衡量两近邻点间的距离，此外，利用高斯核函数来定义矩阵W中边的权重，得到查询带权网络模型；

(5)使用置信传播分配排序分数：置信传播是通过多次迭代计算逐渐得到精确的欲求结果的计算过程，在置信传播开始前，数据集合中源查询序列的置信度设为1；其他设为0，即f(0)＝y，置信传播结束后，未标记样本的排序分数收敛于f^*，当置信传播迭代结束时，节点的置信度不再改变且收敛于f^*，数据集合中每个节点都得到自己的置信度，f^*越高，该节点所代表序列为目标检索数据的概率越大，将f^*值降序排序，对应的节点所代表的序列即为最终检索结果。

2.根据权利要求1所述的一种考虑流形排序算法的电网截面数据检索方法，其特征是，所述的低维的流形子空间定义为：设M是豪斯多夫空间，若对任意一m点x∈M，则有x在M中的一个邻域U同胚于m维欧几里得空间R^m的一个开集，称M是一个维流形，流形排序过程可直观的描述为把数据描述成欧几里德空间中的向量，并在对应的特征空间中构建加权图模型，对已标记节点赋正值，对其他待排序节点赋零值，然后所有节点通过带权图将它们的分数传播给相临近的节点直到整个网络达到平衡状态，最终根据得分大小排序。

3.根据权利要求1所述的一种考虑流形排序算法的电网截面数据检索方法，其特征是，其电网截面基本定义如下：给定一点集

其中节点x₁到节点x_q代表已知电网截面状态，节点x_q+1代表检索对象数据集合，检索对象与检索条件的相似性由权值矩阵W_ij＝exp[-d²(x_i,x_j)/2σ²]描述，d(x_i,x_j)表示节点对x_i和x_j间的距离，排序函数f:X→R，表示每一个节点x_i对应一个排序值f_i，可以将f看作向量f＝[f₁,f₂,…,f_n]^T，定义向量y＝[y₁,y₂,…y_n]^T，其中元素y_i表示集合X中节点的标记情况，y_i＝1表示节点x_i被标记，否则y_i＝0。

4.根据权利要求1所述的一种考虑流形排序算法的电网截面数据检索方法，其特征是，其查询带权网络模型为

W_ij＝exp[-d²(x_i,x_j)/2σ²] (2)

5.根据权利要求1所述的一种考虑流形排序算法的电网截面数据检索方法，其特征是，涉及到计算逆矩阵，当数据规模较大时，需要的计算开销很大，采用迭代算法的计算效率更优越，所以本方法选择使用迭代方式来计算f^*，将上式用泰勒公式展开可以得到：

f^*＝(1-αS)^-1y

＝y+αSy+αS(αSy)+... (3)