CN115186138A

CN115186138A - 一种配电网数据的比对方法及终端

Info

Publication number: CN115186138A
Application number: CN202210696758.8A
Authority: CN
Inventors: 吴桂联; 张林垚; 郑洁云; 陈浩; 唐露; 廖锦霖; 林婷婷; 倪识远
Original assignee: State Grid Fujian Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Fujian Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-10-14

Abstract

本发明公开一种配电网数据的比对方法和终端，对配电网样本数据进行聚类分析，确定配电网样本数据对应的特征数据集合；根据特征数据集合分别对待比对的第一数据和第二数据进行打标，确定第一数据对应的第一特征分类和第二数据对应的第二特征分类；根据特征分类结果将第一数据和第二数据中具有相同特征分类的数据取相同字段分别进行拼接，得到第一数据对应的第一比对字符串和第二数据对应的第二比对字符串；计算所述第一比对字符串和第二比对字符串之间的海明距离，根据所述海明距离，确定所述第一数据和第二数据之间的相似度，通过特征分类结果与海明距离算法相结合，能够最大限度地匹配出相似的数据，大大提高了配电网数据的匹配准确度。

Description

一种配电网数据的比对方法及终端

技术领域

本发明涉及数据比对领域，尤其涉及一种配电网数据的比对方法及终端。

背景技术

由于配电网数据的档案数据和运行数据可能存在于多个系统，在基于档案数据和运行数据进业务分析和辅助决策时，往往会遇到数据口径不一致，但又无法用统一的编码、名称进行强关联的问题。比如档案数据需要以A系统为准，运行数据需要以B系统为准，但A系统的档案数据和B系统的运行数据无唯一关联关系，在这种业务场景下，就需要对A、B两套系统的数据进行相似度匹配，取数据交集，这就涉及到不同数据之间的比对。

对于数据比对方案，应用较多的技术是将数据格式化、标准化，然后形成统一的文件格式或数据库模型，然后对文件或数据模型的固定列进行关联模糊匹配。应用算法主要包括文本模糊匹配算法、相似度算法和距离算法。

文本模糊匹配算法以SequenceMatcher为例，SequenceMatcher类可以用来比较两个任意类型的数据，只要是可以哈希的即可。它使用一个算法来计算序列的最长连续子序列，并且忽略没有意义的“无用数据”。其思想是寻找不包含“垃圾”元素的最长连续匹配子序列。这些“垃圾”元素在某种意义上是无趣的，比如空白行或空白(垃圾信息处理是Ratcliff和Obershelp算法的扩展)。然后，将相同的思想递归地应用到匹配子序列的左子序列和右子序列。这不会产生最小的编辑序列，但是会产生人们“看起来正确”的匹配。SequenceMatcher支持一种自动将某些序列项视为垃圾的启发式方法。启发式计算每个单独的项目在序列中出现的次数。如果一个项目的重复项(在第一个之后)占序列的1％以上，并且序列至少有200个项目长，则该项目将被标记为“popular”，并被视为垃圾，以便进行序列匹配。在创建SequenceMatcher时，可以通过将autojunk参数设置为False来关闭这种启发式。

相似度算法如余弦相似度(Cosine Similarity)，是将一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。

距离算法如海明距离(Hamming distance)，通过对两个位串进行异或(xor)运算，计算两个等长字符串之间对应位置的不同字符的个数，海明距离越短则相似度越高。

然而，上述算法各有各的缺点，比如在特定的业务场景下，比如数据特征较为明显、数据量较大的配电网数据中，文本模糊匹配算法的性能就不太理想；而在小文本内容比对的情况下，海明距离的计算误差较大。因此，如果采用现有的比对算法进行配电网数据的比对，匹配的准确度并不高。

发明内容

本发明所要解决的技术问题是：提供一种配电网数据的比对方法及终端，能够提高配电网数据的匹配准确度。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种配电网数据的比对方法，包括步骤：

S1、对配电网样本数据进行聚类分析，确定所述配电网样本数据对应的特征数据集合；

S2、根据所述特征数据集合分别对待比对的第一数据和第二数据进行打标，确定所述第一数据对应的第一特征分类和所述第二数据对应的第二特征分类；

S3、根据特征分类结果将第一数据和第二数据中具有相同特征分类的数据取相同字段分别进行拼接，得到第一数据对应的第一比对字符串和第二数据对应的第二比对字符串；

S4、计算所述第一比对字符串和第二比对字符串之间的海明距离，根据所述海明距离，确定所述第一数据和第二数据之间的相似度。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种配电网数据的比对终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明的有益效果在于：在对配电网数据进行比对时，先对配电网样本数据进行聚类分析，得到特征数据集合，再基于特征数据集合对待比对的第一数据和第二数据进行打标，确定出第一数据和第二数据各自对应的特征分类，接着将第一数据和第二数据中特征分类相同并且字段相同的数据进行拼接以形成长字符串，最后采用海明距离算法对第一数据和第二数据的长字符串进行距离计算，确定第一数据和第二数据的相似度，先通过聚类分析能够准确地确定各个数据对应的特征分类，从而能够准确拼接出属于同一类别的长字符串，接着再采用海明距离算法对长字符串进行距离计算，实现数据比对，通过特征分类结果与海明距离算法相结合，能够最大限度地匹配出相似的数据，确定出不同数据系统的数据交集，大大提高了配电网数据的匹配准确度。

附图说明

图1为本发明实施例的一种配电网数据的比对方法的步骤流程图；

图2为本发明实施例的一种配电网数据的比对终端的结构示意图；

图3为本发明实施例的不同用电模式下的配电变压器的日负荷曲线图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，一种配电网数据的比对方法，包括步骤：

由上述描述可知，本发明的有益效果在于：在对配电网数据进行比对时，先对配电网样本数据进行聚类分析，得到特征数据集合，再基于特征数据集合对待比对的第一数据和第二数据进行打标，确定出第一数据和第二数据各自对应的特征分类，接着将第一数据和第二数据中特征分类相同并且字段相同的数据进行拼接以形成长字符串，最后采用海明距离算法对第一数据和第二数据的长字符串进行距离计算，确定第一数据和第二数据的相似度，先通过聚类分析能够准确地确定各个数据对应的特征分类，从而能够准确拼接出属于同一类别的长字符串，接着再采用海明距离算法对长字符串进行距离计算，实现数据比对，通过特征分类结果与海明距离算法相结合，能够最大限度地匹配出相似的数据，确定出不同数据系统的数据交集，大大提高了配电网数据的匹配准确度。

进一步地，所述步骤S1包括：

对配电网样本数据进行归一化处理，得到聚类分析的特征向量集合；

采用K-means聚类算法对所述特征向量集合进行聚类分析，得到聚类结果；

根据所述聚类结果对所述聚类结果对应的特征向量集合进行精选，得到每一聚类对应的特征数据，根据每一聚类对应的特征数据确定所述配电网样本数据对应的特征数据集合。

由上述描述可知，K-means算法是无监督机器算法，在业务数据样本足够大的情况下，可计算出足够准确的特征分类结果，在确定出聚类结果地基础上，进一步进行精选，以确定特征数据集合，进一步提高了特征分类结果的准确度。

进一步地，所述步骤S2包括：

将待比对的第一数据和第二数据分别与所述特征数据集合进行比对，分别确定出所述第一数据与所述特征数据集合的第一相似度集合和所述第二数据与所述特征数据集合的第二相似度集合；

根据所述第一相似度集合中相似度最高对应的特征数据确定所述第一数据的第一特征分类，根据所述第二相似度集合中相似度最高对应的特征数据确定所述第二数据的第二特征分类。

由上述描述可知，通过将待比对的数据与特征数据集合比对，确定出对应的相似度集合，将相似度集合中相似度最高对应的特征数据确定为待比对的数据的特征分类，保证了所确定出的待比对的数据的特征分类的准确性。

进一步地，所述计算所述第一比对字符串和第二比对字符串之间的海明距离包括：

分别对所述第一比对字符串和第二比对字符串进行分词操作，得到对应的第一关键字集合和第二关键字集合；

对所述第一关键字集合和第二关键字集合分别执行步骤S31-S34，得到对应的第一降维序列串和第二降维序列串：

S31、根据样本库将关键字集合中的每一个关键字映射为对应的哈希码；

S32、根据每一个关键字的权重对所述关键字对应的哈希码进行加权；

S33、对关键字集合中加权后的各个哈希序列进行累加合并，形成所述关键字集合对应的序列串；

S34、对所述序列串进行降维操作，得到所述关键字集合对应的降维序列串；

根据所述第一降维序列串和第二降维序列串计算所述第一比对字符串和第二比对字符串之间的海明距离。

由上述描述可知，在计算海明距离前依次进行分词、映射、加权、合并累加和降纬操作，进一步保证了数据匹配的准确性。

进一步地，所述确定所述第一数据和第二数据之间的相似度包括：

判断所述海明距离是否小于预设值，若是，则所述第一数据与所述第二数据相似，否则，所述第一数据与所述第二数据不相似。

由上述描述可知，通过将海明距离与一预设值进行比较，基于比较结果确定出第一数据和第二数据是否相似，方便快捷。

请参照图2，一种配电网数据的比对终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

进一步地，所述步骤S1包括：

进一步地，所述步骤S2包括：

实施例一

请参照图1，一种配电网数据的比对方法，包括步骤：

其中，准备好配电网中实际业务样本数据，比如负载情况相关的样本数据；

具体的，将待比对的第一数据和第二数据分别与所述特征数据集合进行比对，分别确定出所述第一数据与所述特征数据集合的第一相似度集合和所述第二数据与所述特征数据集合的第二相似度集合；

根据所述第一相似度集合中相似度最高对应的特征数据确定所述第一数据的第一特征分类，根据所述第二相似度集合中相似度最高对应的特征数据确定所述第二数据的第二特征分类；

在进行比对时，先将第一数据和第二数据转化成与特征数据集合中的特征数据格式相同的数据，接着再继续比对，比如：第一数据中有数据X1，X2，X3，……，Xi；第二数据中有数据Y1，Y2，Y3，……，Yj；特征数据集合中有特征数据A1、A2、A3、……，Am；则将第一数据中的X1分别与A1、A2、A3、……，Am进行比对，得到对应的相似度结果B1、B2、……、Bm，从B1、B2、……、Bm中选择值最小的相似度结果对应的特征数据，基于该特征数据确定A1对应的特征分类，依次类推，可以依次计算出X2，X3，……，Xi和Y1，Y2，Y3，……，Yj各自对应的特征分类；

比如第一数据和第二数据中均具有特征数据Ak对应的特征分类，并且该特征分类的数据中均具有字段：设备名称、资产类型、所属地市名字和所属区县名称，则分别从第一数据和第二数据中提取这些字段的数据，并进行拼接：设备名称+资产类型+所属地市名字+所属区县名称；并且在拼接后的字符串中剔除特殊字符，最终得到比对字符串；

S4、计算所述第一比对字符串和第二比对字符串之间的海明距离，根据所述海明距离，确定所述第一数据和第二数据之间的相似度；

具体的，所述确定所述第一数据和第二数据之间的相似度包括：

判断所述海明距离是否小于预设值，若是，则所述第一数据与所述第二数据相似，否则，所述第一数据与所述第二数据不相似，比如，可以设置预设值为3，则距离小于3的表示第一数据和第二数据是相似的，也即它们是关联的，由此即可以匹配出配电网中两个不同的系统相同设备的数据交集，以满足实际业务需求。

实施例二

本实施例进一步限度了通过采用K-means聚类算法实现对配电网样本数据进行聚类分析，最终得到数据特征集合，具体的：

本实施例中，选取配电变压器的24点负荷数据构成聚类分析的特征向量，各时间点的负荷功率反映了用户在不同时段的用电情况，且相同行业的用户具有相似的负荷特性，所以不同行业用户的日负荷曲线具有较强的区分性，因此，就可以基于不同行业来进行分类，实现聚类分析；

对于同行业用户，为了避免负荷水平差异较大时归属分类不准确，需要对每个测试时间点的负荷功率进行归一化处理：

设P_i＝[p_i1，p_i2，p_i3，…，p_in]为第i台配电变压器的n点功率值，则P_i根据下式进行归一化处理可得到相应的标准值P′_i：

式中，j＝1，2，…，n为配电变压器的功率采样点的编号，p_imax和p_imin分别为第i台配电变压器的n点功率值中的最大值和最小值；

根据所述聚类结果对所述聚类结果对应的特征向量集合进行精选，得到每一聚类对应的特征数据，根据每一聚类对应的特征数据确定所述配电网样本数据对应的特征数据集合；

在进行聚类分析后，得到聚类结果，即将样本数据分成多少种类别，本实施例中，样本数据为配电变压器的24点负荷数据，则通过聚类后，能够实现对配电变压器行业归属的聚类，在聚类完成后，可以对聚类结果再进行精选；

本实施例中，可以通过如下方式进行精选：

确定出每一类别对应的样本数据，对每一类别下的样本数据数目进行统计，根据结果集的数量差异，剔除小概率事件，比如可以剔除样本数目大于第一样本阈值的类别以及剔除样本数目小于第二样本阈值的类别，如聚类出来的结果集有7类，每一类别的样本数目依次为1、2、3、4、5、6、7，则可以剔除样本数目为1和7的类别；其中，第一样本阈值和第二样本阈值的确定可以通过对聚类结果的统计分析得到，比如，可以统计每个类别的平均样本数据数目，然后将小于平均样本数据数目第一预设值对应的值确定为第二样本阈值，将大于平均样本数据第二预设值对应的值确定为第一样本阈值；

在进行聚类分析后，要对待比对的数据进行打标，本实施例种，根据对配电变压器负荷类型进行聚类分析得到的典型行业的日负荷曲线(配电变压器的24点日负荷特征数据集可以以曲线形式展示，因此可称为日负荷曲线，如图3所示)，对未知行业属性的配电变压器进行负荷类型辨识：

首先，将待打标的配电变压器的日负荷数据先进行归一化处理，该归一化处理与聚类分析时样本数据的归一化处理一样；

计算归一化后的配变典型日负荷曲线与各行业的典型日负荷曲线的空间距离的平方，距离越小，配电变压器与该行业的相似程度越高，选取相似程度最高的一个行业作为未知类型的配电变压器的行业归属，空间距离的平方的计算公式如下：

中，k＝1,2,…,n为配电变压器的功率采样点的编号；Xj＝[x_j1，x_j2，…，x_jn]为典型行业j的n点功率值(归一化)；Xi＝[x_i1，x_i2，…，x_in]为第i台配变(配电变压器)的n点功率值(归一化)。

实施例三

本实施例进一步限定了如何进行海明距离的计算，具体的：

所述计算所述第一比对字符串和第二比对字符串之间的海明距离包括：

可以通过分词服务器对比对字符串进行分词操作，提取所有关键字；

样本库中存储了各个关键字以及各个关键字对应的哈希码hashcode，对于每个待映射的关键字，通过搜索在样本库中检索到对应的关键字，然后匹配到其对应的哈希码，比如可以映射为六位哈希码1 0 0 1 0 0、1 0 000 1等；

可以在样本库中根据关键字分布的多少对每个关键字附上权重，然后基于关键字对应的权重对其对应的哈希码加权，形成字符串，在一个可选的实施方式中，可以将哈希码和1进行位运算，如果该位为1，则根据其对应的关键字的权重对该位进行加权，如果该为不为1，则根据其对应的关键字的权重对该位进行降权，比如，对于上述举例的哈希码，第一个对应的关键字的权重为2，第二个对应的关键字的权重为4，则进行加权后为：2 －2 －2 2－2 －2、4 －4 －4 －4 －4 4；

在加完权后，对所有关键字对应的加权后的哈希码进行累加合并，形成一个序列串，比如比对字符串经分词后一共得到20个哈希码，然后对这20个加权后的哈希码累加合并，最终得到：－26 35 28 －31 22 19；

遍历合并后的结果，同样做位比较，如果该位大于0，则记1，如果该位小于0，则记0，如：0 1 1 0 1 1；

根据所述第一降维序列串和第二降维序列串计算所述第一比对字符串和第二比对字符串之间的海明距离；

可以将第一降为序列串和第二降纬序列串进行异或位比较，得到海明距离；

在一个可选的实施方式中，考虑到时间和空间的综合性能，可将样本库文本的64位哈希码hashcode拆分为4段，hashcode为64位，按照顺序平分4段，每段16位，进行组合存储，计算海明距离前可先进行精确匹配，可大大提升计算效率。

实施例四

请参照图2，一种配电网数据的比对终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例一至实施例三中任一个的配电网数据的比对方法中的各个步骤。

综上所述，本发明提供的一种配电网数据的比对方法及终端，在对配电网数据进行比对时，先通过K－means算法对配电网样本数据进行聚类分析并精选，得到特征数据集合，再基于特征数据集合对待比对的第一数据和第二数据进行打标，确定出第一数据和第二数据各自对应的特征分类，接着将第一数据和第二数据中特征分类相同并且字段相同的数据进行拼接以形成长字符串，最后采用海明距离算法对第一数据和第二数据的长字符串进行距离计算，确定第一数据和第二数据的相似度，先通过聚类分析能够准确地确定各个数据对应的特征分类，从而能够准确拼接出属于同一类别的长字符串，接着再采用海明距离算法对长字符串进行距离计算，实现数据比对，通过特征分类结果与海明距离算法相结合，能够最大限度地匹配出相似的数据，确定出不同数据系统的数据交集，大大提高了配电网数据的匹配准确度，能够解决业务数据不同源造成的诸多业务痛点，为业务规划提升和辅助决策起到重要的技术支撑，具有较高的准确性和业务适用性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种配电网数据的比对方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种配电网数据的比对方法，其特征在于，所述步骤S1包括：

3.根据权利要求1所述的一种配电网数据的比对方法，其特征在于，所述步骤S2包括：

4.根据权利要求1至3中任一项所述的一种配电网数据的比对方法，其特征在于，所述计算所述第一比对字符串和第二比对字符串之间的海明距离包括：

5.根据权利要求1至3中任一项所述的一种配电网数据的比对方法，其特征在于，所述确定所述第一数据和第二数据之间的相似度包括：

6.一种配电网数据的比对终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

7.根据权利要求6所述的一种配电网数据的比对终端，其特征在于，所述步骤S1包括：

8.根据权利要求6所述的一种配电网数据的比对终端，其特征在于，所述步骤S2包括：

9.根据权利要求6至8中任一项所述的一种配电网数据的比对终端，其特征在于，所述计算所述第一比对字符串和第二比对字符串之间的海明距离包括：

10.根据权利要求6至8中任一项所述的一种配电网数据的比对终端，其特征在于，所述确定所述第一数据和第二数据之间的相似度包括：