CN110197197A

CN110197197A - 一种基于文本相似度改进的电网档案相似度计算方法

Info

Publication number: CN110197197A
Application number: CN201910301144.3A
Authority: CN
Inventors: 孔庆波; 吴漾; 纪元; 杨箴; 吴忠; 王玮; 罗念华; 王鹏宇; 周玲; 曾路; 郭仁超; 龙娜; 缪新萍; 田钺
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-09-03
Anticipated expiration: 2039-04-15
Also published as: CN110197197B

Abstract

本发明涉及一种基于文本相似度改进的电网档案相似度计算方法，属于文件管理技术领域。该方法包括以下步骤：S1：属性分类及相似度定义；S2：定义全属性综合相似度；S3：同义词转换；S4：获得文本相对相似度。本发明利用系统间的共有属性的数据，快速、简单、有效地得到电网档案中文本的相似度，更有利于对电网档案的管理。

Description

一种基于文本相似度改进的电网档案相似度计算方法

技术领域

本发明属于文件管理技术领域，涉及一种基于文本相似度改进的电网档案相似度计算方法。

背景技术

在电网的多个系统中，站线变户档案会存在多套，但数据一致性却极差，在很多时候我们需要对档案进行比对，核定其是否为同一个对象。比较两个人是否为同一个人，我们会采用诸如姓名、年龄、性别、身高、体重、地址等多个属性来进行综合判断。同样，对于电网档案我们会采用系统间的共有属性的数据是否相同或者相似来进行综合判断。但是，目前没有一种可靠有效的办法快速得到判断的结果。

发明内容

有鉴于此，本发明的目的在于提供一种基于文本相似度改进的电网档案相似度计算方法。

为达到上述目的，本发明提供如下技术方案：

一种基于文本相似度改进的电网档案相似度计算方法，该方法包括以下步骤：

S1：属性分类及相似度定义；

S2：定义全属性综合相似度；

S3：同义词转换；

S4：获得文本相对相似度。

进一步，所述步骤S1具体为：

S11：类别属性相似度定义

类别属性表示该属性所属类别，其中的数据内容能够枚举，每一个枚举值代表一个类别；

由于每个类别值代表的含义不同，那么类别属性的相似度定义为：若类别相同，则属性相似度为1；若类别不同，则属性相似度为0；

S12：数值属性相似度定义

数值属性是用来量化一个属性的大小和范围的，其中的数据内容无法枚举，但能够定量描述的；

由于数值属性的值无法预测，采用数值之间的绝对值差异来判断2个数据的相似度大小，数值属性的相似度定义为：

MIN(||数值1|,|数值2||)/MAX(|数值1|,|数值2|)

其中，|数值1|表示数值1的绝对值，MAX(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最大的那个，MIN(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最小的那个；

相似度范围为0-1，若数值1与数值2相等，则相似度为1；若数值1与数值2中有一个为0，另一个不为0，则相似度为0；

S13：文本属性相似度定义

编辑距离定义：指两个字串之间，由一个转成另一个所需的最少编辑操作次数；

许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符；编辑距离越小，两个串的相似度越大；

在编辑距离中，删除和插入算1次操作，替换算2次操作；

操作具有可逆性，删除对应插入，替换对应替换，A文本转换成B文本的编辑距离与B文本转换成A的编辑距离相等；

文本相似度包括2种形式：

公式一：AB文本相似度＝1-AB编辑距离/MAX(A长度,B长度)

其中，若A文本为’黑石’，B文本为’黑山’，则AB编辑距离为2，A长度为2，B长度为2，AB文本相似度则为0；

公式二：AB文本相似度＝1-AB类编辑距离/(A长度+B长度)

其中，若A文本为’黑石’，B文本为’黑山’，则AB编辑距离为2，A长度为2，B长度为2，AB文本相似度则为0.5；

在电网档案比较中选择公式二作为文本相似度的度量算法；

S14：时间属性相似度定义

时间属性存放的是日期和时间戳类数据，此类属性的相似度定义为：若日期和时间完全相同则为1，否则为0；

采用时间的比对只精确到日期，即若日期相同则为1，否则为0。

进一步，所述步骤S2具体为：

基于站线变户的档案模型，各系统档案的属性不是单一的，而是由多个属性构成的；全属性的构成是营销、GIS和生产系统对象共有的属性，共性属性有对比价值，差异属性无对比价值，需要对给系统的站线变户档案的属性进行梳理和权重设定，用于计算两个对象之间的全属性综合相似度；

全属性综合相似度＝属性1权重*属性1相似度+属性2权重*属性2相似度+......+属性N权重*属性N相似度；

赋权方式采用专家打分法、AHP层次分析法或熵值法，权重分配考虑属性值的重要性、离散程度以及缺失值的占比；

属性越重要，权重越高；

属性离散程度越高，权重分配越高；

缺失值越多，权重分配越低。

进一步，所述步骤S3具体为：

在处理文本属性相似度之前需要考虑到同义词转换，优化计算过程，通过同义词转换，提升整体运算准确率。

进一步，所述步骤S4具体为：

相对相似度定义为原始相似度/理论最大相似度；

对象综合相似度，即改进后的文本相似度＝0.5*原始相似度+0.5*相对相似度。

本发明的有益效果在于：本发明利用系统间的共有属性的数据，快速、简单、有效地得到电网档案中文本的相似度，更有利于对电网档案的管理。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明流程原理图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

1、属性分类及相似度定义

基于属性的数据形式，大体可以划分为类别属性、数值属性、文本属性和时间属性，基于不同的属性，可以定义不同的相似度。

1.1类别属性相似度

类别属性表示该属性所属类别，其中的数据内容是可以枚举的，例如属性电压等级其值的定义是可以由220KV、110KV、35KV、10KV等进行枚举的。此类属性的每一个枚举值代表了一个类别。

由于每个类别值代表的含义不同，那么类别属性的相似度定义为：类别相同，则属性相似度为1；类别不同，则属性相似度为0。

1.2数值属性相似度

数值属性一般是用来量化一个属性的大小、范围等，其中的数据内容是无法枚举，但可以定量描述的。例如属性导线长度，其数据内容是无法枚举的，但是可以用数值来量化其大小。

由于数值属性的值无法预测，采用数值之间的绝对值差异来判断2个数据的相似度大小，数值属性的相似度定义为：MIN(||数值1|,|数值2||)/MAX(|数值1|,|数值2|)，这里的|数值1|表示数值1的绝对值，MAX(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最大的那个,MIN(|数值1|,|数值2|)表示|数值1|和|数值2|两者之间中最小的那个。相似度范围为0-1，如果数值1与数值2相等，则相似度为1；如果数值1与数值2中有一个为0，另一个不为0，则相似度为0。之所以采用绝对值，主要考虑避免负号运算带来相似度计算结果不可控。

以导线长度为例，如果实体1的导线长度为100，实体2的导线长度为104，那么2个实体的导线长度相似度为：MIN(|100|,|104|)/MAX(|100|,|104|)＝100/104。

1.3文本属性相似度

编辑距离定义：指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。例如’ab’与’ac’的编辑距离为1，操作方式为替换,将b替换为c。

类编辑距离，与编辑距离相似。在编辑距离中，删除、插入算1次操作，替换算2次操作。例如’ab’与’ac’的编辑距离为2，操作方式为替换，将b替换为c。

由于操作具有可逆性，删除对应插入，替换对应替换，那么A文本转换成B文本的编辑距离与B文本转换成A的编辑距离相等。

文本相似度通常有2种形式。

公式一：AB文本相似度＝1-AB编辑距离/MAX(A长度,B长度)

对于此公式，如果A文本为’黑石’，B文本为’黑山’，那么AB编辑距离为2，A长度为2，B长度为2，AB文本相似度则为0。

公式二：AB文本相似度＝1-AB类编辑距离/(A长度+B长度)

对于此公式，如果A文本为’黑石’，B文本为’黑山’，那么AB编辑距离为2，A长度为2，B长度为2，AB文本相似度则为0.5。

在电网档案比较中通常选择公式二：AB文本相似度＝1-AB类编辑距离/(A长度+B长度)作为文本相似度的度量算法。

1.4时间属性相似度

时间属性存放的是日期、时间戳类数据，此类属性的相似度定义为如果两者完全相同则为1，否则为0，与类别属性的相似度相近。

考虑到多个系统的时间不可能完全一致，采用时间的比对只精确到日期，即日期相同则为1，否则为0。

2、全属性综合相似度

基于站线变户的档案模型，各系统档案的属性不是单一的，而是由多个属性构成的。全属性的构成是营销、GIS和生产系统对象共有的属性，共性属性有对比价值，差异属性无对比价值，需要对给系统的站线变户档案的属性进行梳理和权重设定，用于计算两个对象之间的全属性综合相似度。

全属性综合相似度＝属性1权重*属性1相似度+属性2权重*属性2相似度+......+属性N权重*属性N相似度。

赋权方式可以采用专家打分法、AHP层次分析法或熵值法等，权重分配可参考属性值的重要性、离散程度以及缺失值的占比。

属性越重要，权重越高。例如用户的名称，一般来说重名概率相对较低，在相同名称的情况下认为是同一个用户的可能性非常高，作为一个重要的属性，该属性的权重分配应该较高。

属性离散程度越高，权重分配越高。例如电压等级的取值相对离散，有220KV、110KV、35KV、20KV、10KV、0.4KV等等，如果数据相同那么说明他们是同一对象的可能性会比较高；而对于变电站运行状态，取值范围主要为运行、暂停、拆除等，离散程度相对较低，相同运行状态的变电站太多，即使状态相同也只有很小概率说明2个变电站是同一个对象，相应的权重要低。

缺失值越多，权重分配越低。不同系统中同一属性的取值如果均是空值，不能说明2者相似度是100％，有可能是缺失导致，如果对象的某个属性空值太多，说明该属性的可比性差，需要降低该属性的相似度权重。

3、改进方案

由于类别属性、数值属性和时间属性相对比较简单。重点对于文本属性的相似度进行改进，以贴合电网档案比对业务。

3.1同义词转换

在处理文本属性相似度之前需要考虑到同义词转换，优化计算过程，通过同义词转换，提升整体运算准确率。如变电站名称由于各业务系统命名规范不一致，出现“变电站”、“站”、“变”、”变站”、”电站”等后缀，都代表变电站，在计算文本相似度之前需要对文本数据统一处理为”变电站”。在文本比较之前将同义词进行统一转换，避免降低同一对象的相似度。

3.2文本相对相似度

在电网档案比对中会出现形如文本A：“玉客城茅－屏山公园门球场专变”、文本B：“屏山公园门球场”在不同的系统中存放。从人眼判断，这2个文本是几乎描述的是同一个对象，但基于文本相似度公式得到的文本相似度只有66.67％。

由于长度为14的字符与长度为7的字符串能得到的理论最大文本相似度是66.67％，所以需要进行修正，计算相对相似度。相对相似度可定义为原始相似度/理论最大相似度，对于上面的案例来说理论最大相似度为66.67％，所以相对相似度为100％。

考虑到可能出现误判，那么最终改进后的文本相似度＝0.5*原始相似度+0.5*相对相似度。

最终总体的计算实现过程如图1所示。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于文本相似度改进的电网档案相似度计算方法，其特征在于：该方法包括以下步骤：

S1：属性分类及相似度定义；

S2：定义全属性综合相似度；

S3：同义词转换；

S4：获得文本相对相似度。

2.根据权利要求1所述的一种基于文本相似度改进的电网档案相似度计算方法，其特征在于：所述步骤S1具体为：

S11：类别属性相似度定义

S12：数值属性相似度定义

MIN(||数值1|,|数值2||)/MAX(|数值1|,|数值2|)

S13：文本属性相似度定义

在编辑距离中，删除和插入算1次操作，替换算2次操作；

文本相似度包括2种形式：

公式一：AB文本相似度＝1-AB编辑距离/MAX(A长度,B长度)

公式二：AB文本相似度＝1-AB类编辑距离/(A长度+B长度)

在电网档案比较中选择公式二作为文本相似度的度量算法；

S14：时间属性相似度定义

3.根据权利要求1所述的一种基于文本相似度改进的电网档案相似度计算方法，其特征在于：所述步骤S2具体为：

属性越重要，权重越高；

属性离散程度越高，权重分配越高；

缺失值越多，权重分配越低。

4.根据权利要求1所述的一种基于文本相似度改进的电网档案相似度计算方法，其特征在于：所述步骤S3具体为：

5.根据权利要求1所述的一种基于文本相似度改进的电网档案相似度计算方法，其特征在于：所述步骤S4具体为：

相对相似度定义为原始相似度/理论最大相似度；