CN110991184B

CN110991184B - 一种基于综合字典特性的继电保护定值自适应校核方法

Info

Publication number: CN110991184B
Application number: CN201911259281.1A
Authority: CN
Inventors: 方保民; 王亦婷; 李红志; 孔祥鹏; 董凌; 王茂春; 陈卉; 梁建龙; 罗敏; 思晓兰; 王宁霞; 刘立敏; 宋锐; 王轩; 杨�嘉; 王彪; 邓海辉
Original assignee: Southeast University; State Grid Qinghai Electric Power Co Ltd
Current assignee: Southeast University; State Grid Qinghai Electric Power Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-04-07
Anticipated expiration: 2039-12-10
Also published as: CN110991184A

Abstract

本发明公开了一种基于综合字典特性的继电保护定值自适应校核方法。所述方法包括：建立综合词典，词典正文为继电保护专业词汇，同时包含同义词数据项；基于综合词典，采用最大正向匹配算法对定值名称进行分词；针对继电保护定值名称的特殊性，对复合型词和单一型词赋以不同权值，采用改进Jaccard相似度来度量两个字符串的相似度，提高匹配准确度。

Description

一种基于综合字典特性的继电保护定值自适应校核方法

技术领域

本发明属于继电保护定值在线校核技术领域，尤其涉及考虑定值名称匹配错误的继电保护定值取值一致性在线校核方法和系统。

背景技术

随着电网运行方式的改变，装置的保护定值也要随之更改。系统自动修改保护定值近期难以实现，手工修改定值对人员责任心要求很高，需要进行核对、把关；在长期运行中继电保护设备本身也会出现定值漂移的问题，及时有效的发现这些问题，不仅能解除电网安全隐患，还能防止保护误动。定值核对工作主要依靠专业人员手动开展，工作量大，任务繁重。保护信息管理系统对保护装置运行定值的召唤功能为继电保护定值校核系统的研究和应用提供了技术支撑。

目前已有上线的继电保护定值比对系统，但是由于继电保护厂家众多，每个设备厂家对定值项名称的命名规范和习惯不一样，调度主站的继电保护整定计算部门和设备厂商的命名习惯也不一样。因此，存在部分定值项匹配出错的问题。这些问题主要分为两大类，第一类是同义异形词之间的匹配问题，第二类是通过改变词序能实现相同的语义表达。第一类问题又分为中文同义异形词(如“启动”和“起动”)，英文同义异形词(如“TV”和“PT”)，序号类同义异形词(如“零序电流1段”和“零序电流Ⅰ段”)。第二类问题是在汉语中多修饰词的偏正短语表达多样性引起的。当有多个修饰词修饰、描述后面的中心词时，多个修饰词的相对顺序往往比较灵活。例如，“零序Ⅱ段电流定值”，“Ⅱ段零序电流定值”和“零序电流Ⅱ段定值”。这三个短语表达方式虽然不同，但是整个偏正短语的语义是完全相同的。本发明针对上述存在的问题，对整词二分词典进行改进，拓展词典的数据结构，添加同义词标志项，从而更好地处理同义异形词的匹配问题。同时将中文、英文以及一些序号类字符都纳入词典中，便于对包含各种语言元素的短语进行同时处理。基于改进的混合词典，通过最大正向匹配算法对短语进行分词操作，在分词过程中，将同义词直接替换为标志同义词，便于后续字符串的匹配，提高匹配准确度。通过基于定值单结构的类型过滤和首项过滤的双重过滤算法进行预处理操作，缩小精确匹配的目标空间，减少时间开销。然后对预处理后筛选出的目标空间进行精确匹配。考虑到继电保护定值项名称的特点以及第二类问题，常用的编辑距离算法将会扩大两个同义短语之间的差异，出现误判的情况，因此采用无序的字符串匹配算法和集合相似性度量提高匹配度。最后对符合字符串名称匹配要求的定值项进行定值核对，若定值不一致，调整匹配策略进行再次匹配筛选。

发明内容

本发明的目的是为了解决上述问题，提供一种基于综合字典特性的继电保护定值自适应校核方法，提高定值项匹配的准确度和在线比对效率。

为达到上述目的，本发明采用的方法是：一种基于综合字典特性的继电保护定值自适应校核方法，包括以下步骤：

1)基于综合词典对继电保护定值名称进行分词操作，形成分词结果词序列，综合词典为包含中文、英文和序号类字符的继电保护专业词典；

2)对目标空间中的定值项计算其改进Jaccard相似度；

3)满足相似度阈值的定值项进行定值比对；

4)通过定值项取值比较结果的反馈进行二次匹配进一步提高匹配的准确度。

进一步地，综合词典内容上涵盖继电保护定值名称中出现各类专业术语，主要为中文字符，同时包含英文字符和各类序号型字符；在结构上分为三层，包括首字Hash表、词索引表和词典正文。

首字Hash表包括首字、最大词长和第一项指针；其中首字为词典中词条的第一个字符；最大词长为对应首字在词典中所有词条词长的最大值；第一项指针为对应首字在词索引表中的起始位置。

词索引表包括所有词长和词典正文指针，数据结构为单向链表；其中所有词长为首字对应所有词条的长度，在索引表中按降序排列；词典正文指针指向对应词长的词条在词典正文中的起始位置。

词典正文包括词条、复合型词标志和同义词标志，数据结构为数组；其中词条为继电保护定值名称中涉及的所有词汇，包括中文词汇、英文词汇和各种序号类字符；复合型词标志数据类型为布尔型，“0”表示该词条非复合型词汇，“1”表示该词条为复合型词汇；同义词标志数据类型为无符号整形，“0”表示该词条在词典中不存在同义词或者该词条为所有同义词的标志性表达，非零整数表示该词条在词典中存在同义词，且该整数即对应的标志性同义词在词典中的序号。通过同义词标志可快速实现同义词的替换。

进一步地，复合型词是由序号类词和中心词复合才能表达完整语义的词条；相对的，不含序号类词的词条为单一型词。

进一步地，分词策略基于混合专业词典采用改进最大正向匹配算法进行分词操作；在分词过程中，首先处理字符串中复合型词，并将复合型词置于分词结果字符串序列的列首，再对单一型词进行处理；同时在分词过程中将同义词替换为标志同义词，其具体步骤如下：

1-1)初始化待切分字符串S＝B₁L B_n和分词结果字符串G，i＝1；

1-2)判断B_i是否为字符串结束标识符,若是，转(1-11)；否则转(1-3)；

1-3)判断B_i是否为序号类字符,若是，转(1-4)；否则转(1-5)；

1-4)判断B_i后一个词是否为复合型词，若是，转(1-7)；否则转(1-10)；

1-5)判断以B_i为首字的词是否为复合型词，若是，转(1-6)；否则转(1-10)；

1-6)判断后一个词是否为序号类词，若是，转(1-7)；否则转(1-10)；

1-7)将该序号类词转换为同类标志词，并将其与复合型词合成一个完整的词M；

1-8)更新G，将M添加到G中；

1-9)更新S，将M从S中删除,转(1-2)；

1-10)i＝i+1,转(1-2)；

1-11)判断S是否为空，若是，转(1-19)；否则转(1-12)；

1-12)取S首字F，由Hash函数确定F在首字Hash表中的位置；

1-13)由F的位置获取对应的最大词长和第一项指针；

1-14)从S的左侧开始，取出长度为最大词长的候选子串M，若候选字串M的词长小于最大词长，取S作为M；

1-15)由第一项指针获得在词索引表中的位置，进而获取对应词长在词典正文位置，判断M是否在词典中，若是，转(1-17)；否则转(1-16)；

1-16)更新M，去除M右侧一个字符，转(1-15)；

1-17)判断M是否存在同义词，若存在，得到其同义词M^*；

1-18)更新S，将M从S中删除；

1-19)更新G，将M^*添加到G中，转(1-11)；

1-20)返回G。

进一步地，所述的步骤(1)和和步骤(2)之间，还包括一个双重过滤机制进行过滤的步骤，所述的双重过滤机制具体为类型过滤和首项过滤结合的双重过滤机制；首先按照定值类型对原始目标空间T＝{t₁,t₂L t_l}进行过滤，得到符合定值类型要求的定值项空间T1，然后对T1继续进行首项过滤，得到搜索空间T2。

进一步地，所述类型过滤具体包括如下步骤：

2-1)获取源字符串s及其定值类型C_S；

2-2)按照定值类型对原始目标空间T进行筛选，得到符合定值类型要求的定值项集合T1。

进一步地，所述首项过滤是基于定值名称分词后的词序列的，词序列按照先复合型词再单一型词的顺序排列，具体包括如下步骤：

3-1)获取源字符串序列s^*及其首项

3-2)从候选集T1中获取字符串序列

3-3)取

第i个词

3-4)判断

和

是否为同型词，若是，转3-5)；否则，转3-9)；

3-5)判断

与

是否相同，若是，转3-8)；否则，转3-6)；

3-6)i＝i+1；

3-7)判断i>n是否成立，若是，转3-9)；否则，转3-3)；

3-8)将

添加到搜索集T2；

3-9)将

从T1中删除；

3-10)判断搜索空间T1是否为空，若是，则结束；否则转3-2)。

其中，n为

中词个数。

进一步地，所述Jaccard度量是一种基于分词技术的集合相似性度量，其表达式如下：

其中，S^*和T^*为分词处理后的两个字符串序列，S^*＝{s₁L s_iL s_m}和T^*＝{t₁L t_jLt_n}，

为两个集合交集合中元素个数，

为两个集合并集合中元素个数。

进一步地，所述防误比对机制首先依次计算源字符串和候选空间T2中目标串的Jaccard距离，得到满足J(S^*,T^*)>q的定值项序列，然后对满足要求的定值项按照相似度从大到小排列，对相似度最大的定值项进行定值的核对，其中θ为给定的相似度阈值；若定值项取值一致，则判定该项定值正确；若定值不一致，则按照顺序进行序列中下一项候选定值项的取值一致性比对，若一致则判定该项定值是与源串对应的定值项，且该项定值取值正确，否则继续下一项定值的验证；若整个定值项序列校核结束，仍无取值一致的定值项，则判定相似度最大的为与源串对应的定值项且该项定值取值错误。

本发明与现有技术相比，具有以下特点：

本发明对整词二分词典进行改进，在词典正文增加了复合型词标志和同义词标志数据项，解决了继电保护名称同义异形词匹配的问题；改进了最大正向匹配算法，优先处理复合型词，并将其置于分词序列的列首，有助于过滤过程中高效处理；提出了类型-首项的双重过滤机制，缩小了目标搜索空间，提高了匹配效率；提出了Jaccard相似性度量，不计词序的集合度量能够提高匹配精度；提出了防误比对机制，有效地提高了匹配校核的准确度。

附图说明

图1是基于基于综合字典特性的继电保护定值自适应校核方法的整体架构图。

图2是综合词典机制示意图。

图3是基于词典的分词策略流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

缩略词和关键术语定义如下：

复合型词：由序号类词和中心词复合才能表达完整语义的词条，如：“Ⅱ段、支路1”；相对的，不含序号类词的词条为单一型词。

本发明的一个实施例的基于综合字典特性的继电保护定值自适应校核方法的流程图如图1所示，具体的流程主要包括以下步骤。

步骤一：对继电保护运行定值单Z和继电保护整定定值单Y中的各定值项定值名称分别进行分词得到Z^*和Y^*；

步骤二：基于分词结果对原始搜索空间T进行双重过滤；

步骤三：计算源字符串与目标字符串的Jaccard距离；

步骤四：对符合相似度阈值要求的目标项进行防误比对。

下面对上述各步骤的具体实现方式进行详细的说明。

上述步骤一中的分词操作为基于综合词典，采用改进最大正向匹配算法对定值名称进行分词。其中混合专业词典结构如图2所示，具体包括三层结构：

第一层：首字Hash表，包括首字、最大词长和第一项指针。其中首字为词典中词条的第一个字符；最大词长为对应首字在词典中所有词条词长的最大值；第一项指针为对应首字在词索引表中的起始位置。

第二层：词索引表，包括所有词长和词典正文指针，数据结构为单向链表。其中所有词长为首字对应所有词条的长度，在索引表中按降序排列；词典正文指针指向对应词长的词条在词典正文中的起始位置。

第三层：词典正文，包括词条、复合型词标志和同义词标志，数据结构为数组。其中词条为继电保护定值名称中涉及的所有词汇，包括中文词汇、英文词汇和各种序号类字符；复合型词标志数据类型为布尔型，“0”表示该词条非复合型词汇，“1”表示该词条为复合型词汇；同义词标志数据类型为无符号整形，“0”表示该词条在词典中不存在同义词或者该词条为所有同义词的标志性表达，非零整数表示该词条在词典中存在同义词，且该整数即对应的标志性同义词在词典中的序号。通过同义词标志可快速实现同义词的替换。

其中，改进最大正向匹配算法具体步骤如下：

1)初始化待切分字符串S＝B₁L B_n和分词结果字符串G，i＝1；

2)判断B_i是否为字符串结束标识符,若是，转(11)；否则转(3)；

3)判断B_i是否为序号类字符,若是，转(4)；否则转(5)；

4)判断B_i后一个词是否为复合型词，若是，转(7)；否则转(10)；

5)判断以B_i为首字的词是否为复合型词，若是，转(6)；否则转(10)；

6)判断后一个词是否为序号类词，若是，转(7)；否则转(10)；

7)将该序号类词转换为同类标志词，并将其与复合型词合成一个完整的词M；

8)更新G，将M添加到G中；

9)更新S，将M从S中删除,转(2)；

10)i＝i+1,转(2)；

11)判断S是否为空，若是，转(19)；否则转(12)；

12)取S首字F，由Hash函数确定F在首字Hash表中的位置；

13)由F的位置获取对应的最大词长和第一项指针；

14)从S的左侧开始，取出长度为最大词长的候选子串M，若候选字串M的词长小于最大词长，取S作为M；

15)由第一项指针获得在词索引表中的位置，进而获取对应词长在词典正文位置，判断M是否在词典中，若是，转(17)；否则转(16)；

16)更新M，去除M右侧一个字符，转(15)；

17)判断M是否存在同义词，若存在，得到其同义词M^*；

18)更新S，将M从S中删除；

19)更新G，将M^*添加到G中，转(11)；

20)返回G。

下面说明根据本发明的基于综合字典特性的继电保护定值自适应校核方法中步骤一的一个示例过程。

取待切分字符串S＝“相间距离Ⅰ段定值”，具体步骤如下：

首先从第一个字开始向后遍历S，搜索是否有序号类字或复合型词，搜索到“Ⅰ”为序号类字，其同义词下标不为“0”，通过同义词下标找到同义标志词“1”并进行同义词替换，向后搜索一个字符“段”，为复合型词，将“Ⅰ”和“段”合并为“Ⅰ段”，将“Ⅰ段”从S中剔除，同时将“Ⅰ段”添加到分词结果字符串G中。

此时S＝“相间距离定值”。继续取S首字“相”，最大词长为3，从S左侧开始截取长度为2的候选字符“相间距”，在词典中进行匹配，匹配失败。

从S中截取长度为2的候选字符“相间”，在词典中进行匹配，匹配成功。将“相间”从S中删除，同时将“相间”添加到分词结果字符串G中。

此时S＝“距离定值”，G＝“Ⅰ段|相间”。继续取S首字“距”，最大词长为2，从S左侧取长度为2的候选字符“距离”，在词典中匹配，匹配成功。将“距离”从S中删除，同时将“距离”添加到G中。

此时S＝“定值”，G＝“Ⅰ段|相间|距离”。继续取S首字“定”，最大词长为3，但此时S长度为2，无法按最大词长3截取，故从S左侧取长度为2的候选字符串“定值”，在词典中匹配，匹配成功。将“定值”从S中删除，同时将“定值”添加到G中。

此时S为空，分词结束。分词结果为G＝“Ⅰ段|相间|距离|定值”。

步骤二中的双重过滤是基于分词结果的类型过滤和首项过滤结合的双重过滤机制。首先按照定值类型对原始目标空间T＝{t₁,t₂L t_l}进行过滤，得到符合定值类型要求的定值项空间T1，然后对T1继续进行首项过滤，得到搜索空间T2。

其中，所述类型过滤具体包括如下步骤：

1)获取源字符串s及其定值类型C_S；

2)按照定值类型对原始目标空间T进行筛选，得到符合定值类型要求的定值项集合T1。

所述首项过滤是基于定值名称分词后的词序列的，词序列按照先复合型词再单一型词的顺序排列，具体包括如下步骤：

1)获取源字符串序列s^*及其首项

2)从候选集T1中获取字符串序列

3)取

第i个词

4)判断

和

是否为同型词，若是，转5)；否则，转9)；

5)判断

与

是否相同，若是，转8)；否则，转6)；

6)i＝i+1；

7)判断i>n是否成立，若是，转9)；否则，转3)；

8)将

添加到搜索集T2；

9)将

从T1中删除；

10)判断搜索空间T1是否为空，若是，则结束；否则转2)。

其中，n为

中词个数。

步骤三中Jaccard度量，具体计算表达式为：

下面说明根据本发明的基于综合字典特性的继电保护定值自适应校核方法中步骤三的一个示例过程。

取源字符串S＝“零序电流Ⅰ段定值”，目标字符串T＝“Ⅰ段零序电流定值”。经过分词后的字符串序列为S^*＝“Ⅰ段|零序|电流|定值”，T^*＝“Ⅰ段|零序|电流|定值”。则

J(S^*,T^*)＝4/4＝1。源字符串与目标字符串的匹配度为1。

步骤四中的防误比对机制具体为：首先依次计算源字符串和候选空间T2中目标串的Jaccard距离，得到满足J(S^*,T^*)>q的定值项序列，然后对满足要求的定值项按照相似度从大到小排列，对相似度最大的定值项进行定值的核对，其中θ为给定的相似度阈值；若定值项取值一致，则判定该项定值正确；若定值不一致，则按照顺序进行序列中下一项候选定值项的取值一致性比对，若一致则判定该项定值是与源串对应的定值项，且该项定值取值正确，否则继续下一项定值的验证；若整个定值项序列校核结束，仍无取值一致的定值项，则判定相似度最大的为与源串对应的定值项且该项定值取值错误。

下面说明根据本发明的基于综合字典特性的继电保护定值自适应校核方法中步骤四的一个示例过程。

取源字符串s＝“零序电流Ⅱ段定值”，目标字符串空间为T3＝{t₁,t₂},其中t₁＝“零序过流Ⅱ段定值”，t₂＝“零序电流Ⅱ段时间”，θ取0.75。源字符串和目标字符串的分词结果和整定值如表1所示。

表1源串与目标串的定值名称和整定值

分别计算源串与目标串的Jaccard距离，得

比较源串s与目标串t₁的整定值，0.75A≠2.1S，整定值不一致，故接着比较源串S和目标串t₂的整定值，整定值一致。故与源串对应的定值项为t₂，且该项定值取值正确。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于综合字典特性的继电保护定值自适应校核方法，其特征在于，包括以下步骤：

2)对目标空间中的定值项计算其改进Jaccard相似度；

3)满足相似度阈值的定值项进行定值比对；

4)通过定值项取值比较结果的反馈进行二次匹配进一步提高匹配的准确度；

所述综合词典在结构上分为三层，包括首字Hash表、词索引表和词典正文；所述首字Hash表包括首字、最大词长和第一项指针；其中首字为词典中记录的词条的第一个字；最大词长为对应首字在词典中所有词条词长的最大值；第一项指针为首字在词索引表中的起始位置；所述词索引表包括所有词长和词典正文指针；其中所有词长为对应首字所有词条的长度，词长在索引表中按降序排列；词典正文指针为指向对应词长的词条在词典正文中的起始位置；所述词典正文包括词条、复合型词标志和同义词标志；其中词条涵盖继电保护定值名称中出现的所有词，包括中文词汇、英文词汇和序号类字符；复合型标志的数据类型为布尔型，“0”表示该词条非复合型词汇，“1”表示该词条为复合型词汇；同义词标志数据类型为无符号整形，“0”表示该词条在词典中不存在同义词或者该词条为所有同义词的标志性表达，非零整数表示该词条在词典中存在同义词，且该整数即对应的标志性同义词在词典中的序号；所述复合型词是由序号类词和中心词复合才能表达完整语义的词条；相对的，不含序号类词的词条为单一型词。

2.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法，其特征在于：所述的分词结果词序列的数据结构包含词和权值两项，所述权值按照词类型的差异赋予不同的权值：复合型词权值赋10，单一型词权值赋1。

3.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法，其特征在于：所述分词操作为正向最大匹配算法，所述最大正向匹配算法在分词过程中将同义词替换为同义词标志性表达，具体包括如下步骤：

1-1)初始化待切分字符串S＝B₁L B_n和分词结果词序列G，i＝1；

1-3)判断B_i是否为序号类字符,若是，转(1-4)；否则转(1-5)；

1-8)更新G，将M添加到G中，同时给M的权值数据项赋10，转(1-10)；

1-9)更新S，将M从S中删除,转(1-2)；

1-10)i＝i+1,转(1-2)；

1-11)判断S是否为空，若是，转(1-19)；否则转(1-12)；

1-12)取S首字F，由Hash函数确定F在首字Hash表中的位置；

1-13)由F的位置获取对应的最大词长和第一项指针；

1-16)更新M，去除M右侧一个字符，转(1-15)；

1-17)判断M是否存在同义词，若存在，得到其同义词M^*；

1-18)更新S，将M或M^*从S中删除；

1-19)更新G，将M或M^*添加到G中，同时给M或M^*的权值数据项赋1，转(1-11)；

1-20)返回G。

4.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法，其特征在于：所述改进Jaccard相似性度量是基于分词技术的，其具体计算公式如下：

其中S^*＝{s₁L s_iL s_m}，为分词后的源字符串集合，T^*＝{t₁L t_jL t_n}，为分词后的目标字符串集合，

为两个集合中单一型词交运算的元素个数，

为两个集合中单一型词并运算的元素个数，

为两个集合中复合型词交运算的元素个数，

为两个集合中复合型词并运算的元素个数。

5.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法，其特征在于：所述步骤2)首先依次计算源字符串和候选空间T2中目标串的Jaccard距离，得到满足J(S^*,T^*)>q的定值项序列，然后对满足要求的定值项按照相似度从大到小排列，对相似度最大的定值项进行定值的核对；其中θ为给定的相似度阈值。

6.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法，其特征在于：所述步骤4)具体包括：对满足要求且按相似度从大到小排列的定值序列，先取相似度最大的定值项进行定值项取值的比对，若定值项取值一致，则判定该项定值正确；若定值不一致，则按照顺序进行序列中下一项候选定值项的取值一致性比对，若一致则判定该项定值是与源串对应的定值项，且该项定值取值正确，否则继续下一项定值的验证；若整个定值项序列校核结束，仍无取值一致的定值项，则判定相似度最大的为与源串对应的定值项且该项定值取值错误。

7.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法，其特征在于：在所述的步骤(1)和步骤(2)之间，还包括一个双重过滤机制进行过滤的步骤，所述的双重过滤机制具体为类型过滤和首项过滤结合的双重过滤机制；首先按照定值类型对原始目标空间T＝{t₁,t₂L t_l}进行过滤，得到符合定值类型要求的定值项空间T1，然后对T1继续进行首项过滤，得到搜索空间T2。

8.根据权利要求7所述的基于综合字典特性的继电保护定值自适应校核方法，其特征在于：所述类型过滤具体包括如下步骤：

2-1)获取源字符串s及其定值类型C_S；

9.根据权利要求7所述的基于综合字典特性的继电保护定值自适应校核方法，其特征在于：所述首项过滤是基于定值名称分词后的词序列的，词序列按照先复合型词再单一型词的顺序排列，具体包括如下步骤：

3-1)获取源字符串序列s^*及其首项