CN110991184B - 一种基于综合字典特性的继电保护定值自适应校核方法 - Google Patents

一种基于综合字典特性的继电保护定值自适应校核方法 Download PDF

Info

Publication number
CN110991184B
CN110991184B CN201911259281.1A CN201911259281A CN110991184B CN 110991184 B CN110991184 B CN 110991184B CN 201911259281 A CN201911259281 A CN 201911259281A CN 110991184 B CN110991184 B CN 110991184B
Authority
CN
China
Prior art keywords
word
dictionary
turning
fixed value
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911259281.1A
Other languages
English (en)
Other versions
CN110991184A (zh
Inventor
方保民
王亦婷
李红志
孔祥鹏
董凌
王茂春
陈卉
梁建龙
罗敏
思晓兰
王宁霞
刘立敏
宋锐
王轩
杨�嘉
王彪
邓海辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
State Grid Qinghai Electric Power Co Ltd
Original Assignee
Southeast University
State Grid Qinghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University, State Grid Qinghai Electric Power Co Ltd filed Critical Southeast University
Priority to CN201911259281.1A priority Critical patent/CN110991184B/zh
Publication of CN110991184A publication Critical patent/CN110991184A/zh
Application granted granted Critical
Publication of CN110991184B publication Critical patent/CN110991184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于综合字典特性的继电保护定值自适应校核方法。所述方法包括:建立综合词典,词典正文为继电保护专业词汇,同时包含同义词数据项;基于综合词典,采用最大正向匹配算法对定值名称进行分词;针对继电保护定值名称的特殊性,对复合型词和单一型词赋以不同权值,采用改进Jaccard相似度来度量两个字符串的相似度,提高匹配准确度。

Description

一种基于综合字典特性的继电保护定值自适应校核方法
技术领域
本发明属于继电保护定值在线校核技术领域,尤其涉及考虑定值名称匹配错误的继电保护定值取值一致性在线校核方法和系统。
背景技术
随着电网运行方式的改变,装置的保护定值也要随之更改。系统自动修改保护定值近期难以实现,手工修改定值对人员责任心要求很高,需要进行核对、把关;在长期运行中继电保护设备本身也会出现定值漂移的问题,及时有效的发现这些问题,不仅能解除电网安全隐患,还能防止保护误动。定值核对工作主要依靠专业人员手动开展,工作量大,任务繁重。保护信息管理系统对保护装置运行定值的召唤功能为继电保护定值校核系统的研究和应用提供了技术支撑。
目前已有上线的继电保护定值比对系统,但是由于继电保护厂家众多,每个设备厂家对定值项名称的命名规范和习惯不一样,调度主站的继电保护整定计算部门和设备厂商的命名习惯也不一样。因此,存在部分定值项匹配出错的问题。这些问题主要分为两大类,第一类是同义异形词之间的匹配问题,第二类是通过改变词序能实现相同的语义表达。第一类问题又分为中文同义异形词(如“启动”和“起动”),英文同义异形词(如“TV”和“PT”),序号类同义异形词(如“零序电流1段”和“零序电流Ⅰ段”)。第二类问题是在汉语中多修饰词的偏正短语表达多样性引起的。当有多个修饰词修饰、描述后面的中心词时,多个修饰词的相对顺序往往比较灵活。例如,“零序Ⅱ段电流定值”,“Ⅱ段零序电流定值”和“零序电流Ⅱ段定值”。这三个短语表达方式虽然不同,但是整个偏正短语的语义是完全相同的。本发明针对上述存在的问题,对整词二分词典进行改进,拓展词典的数据结构,添加同义词标志项,从而更好地处理同义异形词的匹配问题。同时将中文、英文以及一些序号类字符都纳入词典中,便于对包含各种语言元素的短语进行同时处理。基于改进的混合词典,通过最大正向匹配算法对短语进行分词操作,在分词过程中,将同义词直接替换为标志同义词,便于后续字符串的匹配,提高匹配准确度。通过基于定值单结构的类型过滤和首项过滤的双重过滤算法进行预处理操作,缩小精确匹配的目标空间,减少时间开销。然后对预处理后筛选出的目标空间进行精确匹配。考虑到继电保护定值项名称的特点以及第二类问题,常用的编辑距离算法将会扩大两个同义短语之间的差异,出现误判的情况,因此采用无序的字符串匹配算法和集合相似性度量提高匹配度。最后对符合字符串名称匹配要求的定值项进行定值核对,若定值不一致,调整匹配策略进行再次匹配筛选。
发明内容
本发明的目的是为了解决上述问题,提供一种基于综合字典特性的继电保护定值自适应校核方法,提高定值项匹配的准确度和在线比对效率。
为达到上述目的,本发明采用的方法是:一种基于综合字典特性的继电保护定值自适应校核方法,包括以下步骤:
1)基于综合词典对继电保护定值名称进行分词操作,形成分词结果词序列,综合词典为包含中文、英文和序号类字符的继电保护专业词典;
2)对目标空间中的定值项计算其改进Jaccard相似度;
3)满足相似度阈值的定值项进行定值比对;
4)通过定值项取值比较结果的反馈进行二次匹配进一步提高匹配的准确度。
进一步地,综合词典内容上涵盖继电保护定值名称中出现各类专业术语,主要为中文字符,同时包含英文字符和各类序号型字符;在结构上分为三层,包括首字Hash表、词索引表和词典正文。
首字Hash表包括首字、最大词长和第一项指针;其中首字为词典中词条的第一个字符;最大词长为对应首字在词典中所有词条词长的最大值;第一项指针为对应首字在词索引表中的起始位置。
词索引表包括所有词长和词典正文指针,数据结构为单向链表;其中所有词长为首字对应所有词条的长度,在索引表中按降序排列;词典正文指针指向对应词长的词条在词典正文中的起始位置。
词典正文包括词条、复合型词标志和同义词标志,数据结构为数组;其中词条为继电保护定值名称中涉及的所有词汇,包括中文词汇、英文词汇和各种序号类字符;复合型词标志数据类型为布尔型,“0”表示该词条非复合型词汇,“1”表示该词条为复合型词汇;同义词标志数据类型为无符号整形,“0”表示该词条在词典中不存在同义词或者该词条为所有同义词的标志性表达,非零整数表示该词条在词典中存在同义词,且该整数即对应的标志性同义词在词典中的序号。通过同义词标志可快速实现同义词的替换。
进一步地,复合型词是由序号类词和中心词复合才能表达完整语义的词条;相对的,不含序号类词的词条为单一型词。
进一步地,分词策略基于混合专业词典采用改进最大正向匹配算法进行分词操作;在分词过程中,首先处理字符串中复合型词,并将复合型词置于分词结果字符串序列的列首,再对单一型词进行处理;同时在分词过程中将同义词替换为标志同义词,其具体步骤如下:
1-1)初始化待切分字符串S=B1L Bn和分词结果字符串G,i=1;
1-2)判断Bi是否为字符串结束标识符,若是,转(1-11);否则转(1-3);
1-3)判断Bi是否为序号类字符,若是,转(1-4);否则转(1-5);
1-4)判断Bi后一个词是否为复合型词,若是,转(1-7);否则转(1-10);
1-5)判断以Bi为首字的词是否为复合型词,若是,转(1-6);否则转(1-10);
1-6)判断后一个词是否为序号类词,若是,转(1-7);否则转(1-10);
1-7)将该序号类词转换为同类标志词,并将其与复合型词合成一个完整的词M;
1-8)更新G,将M添加到G中;
1-9)更新S,将M从S中删除,转(1-2);
1-10)i=i+1,转(1-2);
1-11)判断S是否为空,若是,转(1-19);否则转(1-12);
1-12)取S首字F,由Hash函数确定F在首字Hash表中的位置;
1-13)由F的位置获取对应的最大词长和第一项指针;
1-14)从S的左侧开始,取出长度为最大词长的候选子串M,若候选字串M的词长小于最大词长,取S作为M;
1-15)由第一项指针获得在词索引表中的位置,进而获取对应词长在词典正文位置,判断M是否在词典中,若是,转(1-17);否则转(1-16);
1-16)更新M,去除M右侧一个字符,转(1-15);
1-17)判断M是否存在同义词,若存在,得到其同义词M*
1-18)更新S,将M从S中删除;
1-19)更新G,将M*添加到G中,转(1-11);
1-20)返回G。
进一步地,所述的步骤(1)和和步骤(2)之间,还包括一个双重过滤机制进行过滤的步骤,所述的双重过滤机制具体为类型过滤和首项过滤结合的双重过滤机制;首先按照定值类型对原始目标空间T={t1,t2L tl}进行过滤,得到符合定值类型要求的定值项空间T1,然后对T1继续进行首项过滤,得到搜索空间T2。
进一步地,所述类型过滤具体包括如下步骤:
2-1)获取源字符串s及其定值类型CS
2-2)按照定值类型对原始目标空间T进行筛选,得到符合定值类型要求的定值项集合T1。
进一步地,所述首项过滤是基于定值名称分词后的词序列的,词序列按照先复合型词再单一型词的顺序排列,具体包括如下步骤:
3-1)获取源字符串序列s*及其首项
Figure BDA0002311163510000041
3-2)从候选集T1中获取字符串序列
Figure BDA0002311163510000042
3-3)取
Figure BDA0002311163510000043
第i个词
Figure BDA0002311163510000044
3-4)判断
Figure BDA0002311163510000045
Figure BDA0002311163510000046
是否为同型词,若是,转3-5);否则,转3-9);
3-5)判断
Figure BDA0002311163510000047
Figure BDA0002311163510000048
是否相同,若是,转3-8);否则,转3-6);
3-6)i=i+1;
3-7)判断i>n是否成立,若是,转3-9);否则,转3-3);
3-8)将
Figure BDA0002311163510000049
添加到搜索集T2;
3-9)将
Figure BDA00023111635100000410
从T1中删除;
3-10)判断搜索空间T1是否为空,若是,则结束;否则转3-2)。
其中,n为
Figure BDA00023111635100000411
中词个数。
进一步地,所述Jaccard度量是一种基于分词技术的集合相似性度量,其表达式如下:
Figure BDA00023111635100000412
其中,S*和T*为分词处理后的两个字符串序列,S*={s1L siL sm}和T*={t1L tjLtn},
Figure BDA0002311163510000051
为两个集合交集合中元素个数,
Figure BDA0002311163510000052
为两个集合并集合中元素个数。
进一步地,所述防误比对机制首先依次计算源字符串和候选空间T2中目标串的Jaccard距离,得到满足J(S*,T*)>q的定值项序列,然后对满足要求的定值项按照相似度从大到小排列,对相似度最大的定值项进行定值的核对,其中θ为给定的相似度阈值;若定值项取值一致,则判定该项定值正确;若定值不一致,则按照顺序进行序列中下一项候选定值项的取值一致性比对,若一致则判定该项定值是与源串对应的定值项,且该项定值取值正确,否则继续下一项定值的验证;若整个定值项序列校核结束,仍无取值一致的定值项,则判定相似度最大的为与源串对应的定值项且该项定值取值错误。
本发明与现有技术相比,具有以下特点:
本发明对整词二分词典进行改进,在词典正文增加了复合型词标志和同义词标志数据项,解决了继电保护名称同义异形词匹配的问题;改进了最大正向匹配算法,优先处理复合型词,并将其置于分词序列的列首,有助于过滤过程中高效处理;提出了类型-首项的双重过滤机制,缩小了目标搜索空间,提高了匹配效率;提出了Jaccard相似性度量,不计词序的集合度量能够提高匹配精度;提出了防误比对机制,有效地提高了匹配校核的准确度。
附图说明
图1是基于基于综合字典特性的继电保护定值自适应校核方法的整体架构图。
图2是综合词典机制示意图。
图3是基于词典的分词策略流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
缩略词和关键术语定义如下:
复合型词:由序号类词和中心词复合才能表达完整语义的词条,如:“Ⅱ段、支路1”;相对的,不含序号类词的词条为单一型词。
本发明的一个实施例的基于综合字典特性的继电保护定值自适应校核方法的流程图如图1所示,具体的流程主要包括以下步骤。
步骤一:对继电保护运行定值单Z和继电保护整定定值单Y中的各定值项定值名称分别进行分词得到Z*和Y*
步骤二:基于分词结果对原始搜索空间T进行双重过滤;
步骤三:计算源字符串与目标字符串的Jaccard距离;
步骤四:对符合相似度阈值要求的目标项进行防误比对。
下面对上述各步骤的具体实现方式进行详细的说明。
上述步骤一中的分词操作为基于综合词典,采用改进最大正向匹配算法对定值名称进行分词。其中混合专业词典结构如图2所示,具体包括三层结构:
第一层:首字Hash表,包括首字、最大词长和第一项指针。其中首字为词典中词条的第一个字符;最大词长为对应首字在词典中所有词条词长的最大值;第一项指针为对应首字在词索引表中的起始位置。
第二层:词索引表,包括所有词长和词典正文指针,数据结构为单向链表。其中所有词长为首字对应所有词条的长度,在索引表中按降序排列;词典正文指针指向对应词长的词条在词典正文中的起始位置。
第三层:词典正文,包括词条、复合型词标志和同义词标志,数据结构为数组。其中词条为继电保护定值名称中涉及的所有词汇,包括中文词汇、英文词汇和各种序号类字符;复合型词标志数据类型为布尔型,“0”表示该词条非复合型词汇,“1”表示该词条为复合型词汇;同义词标志数据类型为无符号整形,“0”表示该词条在词典中不存在同义词或者该词条为所有同义词的标志性表达,非零整数表示该词条在词典中存在同义词,且该整数即对应的标志性同义词在词典中的序号。通过同义词标志可快速实现同义词的替换。
其中,改进最大正向匹配算法具体步骤如下:
1)初始化待切分字符串S=B1L Bn和分词结果字符串G,i=1;
2)判断Bi是否为字符串结束标识符,若是,转(11);否则转(3);
3)判断Bi是否为序号类字符,若是,转(4);否则转(5);
4)判断Bi后一个词是否为复合型词,若是,转(7);否则转(10);
5)判断以Bi为首字的词是否为复合型词,若是,转(6);否则转(10);
6)判断后一个词是否为序号类词,若是,转(7);否则转(10);
7)将该序号类词转换为同类标志词,并将其与复合型词合成一个完整的词M;
8)更新G,将M添加到G中;
9)更新S,将M从S中删除,转(2);
10)i=i+1,转(2);
11)判断S是否为空,若是,转(19);否则转(12);
12)取S首字F,由Hash函数确定F在首字Hash表中的位置;
13)由F的位置获取对应的最大词长和第一项指针;
14)从S的左侧开始,取出长度为最大词长的候选子串M,若候选字串M的词长小于最大词长,取S作为M;
15)由第一项指针获得在词索引表中的位置,进而获取对应词长在词典正文位置,判断M是否在词典中,若是,转(17);否则转(16);
16)更新M,去除M右侧一个字符,转(15);
17)判断M是否存在同义词,若存在,得到其同义词M*
18)更新S,将M从S中删除;
19)更新G,将M*添加到G中,转(11);
20)返回G。
下面说明根据本发明的基于综合字典特性的继电保护定值自适应校核方法中步骤一的一个示例过程。
取待切分字符串S=“相间距离Ⅰ段定值”,具体步骤如下:
首先从第一个字开始向后遍历S,搜索是否有序号类字或复合型词,搜索到“Ⅰ”为序号类字,其同义词下标不为“0”,通过同义词下标找到同义标志词“1”并进行同义词替换,向后搜索一个字符“段”,为复合型词,将“Ⅰ”和“段”合并为“Ⅰ段”,将“Ⅰ段”从S中剔除,同时将“Ⅰ段”添加到分词结果字符串G中。
此时S=“相间距离定值”。继续取S首字“相”,最大词长为3,从S左侧开始截取长度为2的候选字符“相间距”,在词典中进行匹配,匹配失败。
从S中截取长度为2的候选字符“相间”,在词典中进行匹配,匹配成功。将“相间”从S中删除,同时将“相间”添加到分词结果字符串G中。
此时S=“距离定值”,G=“Ⅰ段|相间”。继续取S首字“距”,最大词长为2,从S左侧取长度为2的候选字符“距离”,在词典中匹配,匹配成功。将“距离”从S中删除,同时将“距离”添加到G中。
此时S=“定值”,G=“Ⅰ段|相间|距离”。继续取S首字“定”,最大词长为3,但此时S长度为2,无法按最大词长3截取,故从S左侧取长度为2的候选字符串“定值”,在词典中匹配,匹配成功。将“定值”从S中删除,同时将“定值”添加到G中。
此时S为空,分词结束。分词结果为G=“Ⅰ段|相间|距离|定值”。
步骤二中的双重过滤是基于分词结果的类型过滤和首项过滤结合的双重过滤机制。首先按照定值类型对原始目标空间T={t1,t2L tl}进行过滤,得到符合定值类型要求的定值项空间T1,然后对T1继续进行首项过滤,得到搜索空间T2。
其中,所述类型过滤具体包括如下步骤:
1)获取源字符串s及其定值类型CS
2)按照定值类型对原始目标空间T进行筛选,得到符合定值类型要求的定值项集合T1。
所述首项过滤是基于定值名称分词后的词序列的,词序列按照先复合型词再单一型词的顺序排列,具体包括如下步骤:
1)获取源字符串序列s*及其首项
Figure BDA0002311163510000081
2)从候选集T1中获取字符串序列
Figure BDA0002311163510000082
3)取
Figure BDA0002311163510000083
第i个词
Figure BDA0002311163510000084
4)判断
Figure BDA0002311163510000085
Figure BDA0002311163510000086
是否为同型词,若是,转5);否则,转9);
5)判断
Figure BDA0002311163510000087
Figure BDA0002311163510000088
是否相同,若是,转8);否则,转6);
6)i=i+1;
7)判断i>n是否成立,若是,转9);否则,转3);
8)将
Figure BDA0002311163510000089
添加到搜索集T2;
9)将
Figure BDA00023111635100000810
从T1中删除;
10)判断搜索空间T1是否为空,若是,则结束;否则转2)。
其中,n为
Figure BDA0002311163510000091
中词个数。
步骤三中Jaccard度量,具体计算表达式为:
Figure BDA0002311163510000092
下面说明根据本发明的基于综合字典特性的继电保护定值自适应校核方法中步骤三的一个示例过程。
取源字符串S=“零序电流Ⅰ段定值”,目标字符串T=“Ⅰ段零序电流定值”。经过分词后的字符串序列为S*=“Ⅰ段|零序|电流|定值”,T*=“Ⅰ段|零序|电流|定值”。则
Figure BDA0002311163510000093
Figure BDA0002311163510000094
Figure BDA0002311163510000095
J(S*,T*)=4/4=1。源字符串与目标字符串的匹配度为1。
步骤四中的防误比对机制具体为:首先依次计算源字符串和候选空间T2中目标串的Jaccard距离,得到满足J(S*,T*)>q的定值项序列,然后对满足要求的定值项按照相似度从大到小排列,对相似度最大的定值项进行定值的核对,其中θ为给定的相似度阈值;若定值项取值一致,则判定该项定值正确;若定值不一致,则按照顺序进行序列中下一项候选定值项的取值一致性比对,若一致则判定该项定值是与源串对应的定值项,且该项定值取值正确,否则继续下一项定值的验证;若整个定值项序列校核结束,仍无取值一致的定值项,则判定相似度最大的为与源串对应的定值项且该项定值取值错误。
下面说明根据本发明的基于综合字典特性的继电保护定值自适应校核方法中步骤四的一个示例过程。
取源字符串s=“零序电流Ⅱ段定值”,目标字符串空间为T3={t1,t2},其中t1=“零序过流Ⅱ段定值”,t2=“零序电流Ⅱ段时间”,θ取0.75。源字符串和目标字符串的分词结果和整定值如表1所示。
表1源串与目标串的定值名称和整定值
Figure BDA0002311163510000096
Figure BDA0002311163510000101
分别计算源串与目标串的Jaccard距离,得
Figure BDA0002311163510000102
比较源串s与目标串t1的整定值,0.75A≠2.1S,整定值不一致,故接着比较源串S和目标串t2的整定值,整定值一致。故与源串对应的定值项为t2,且该项定值取值正确。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (9)

1.一种基于综合字典特性的继电保护定值自适应校核方法,其特征在于,包括以下步骤:
1)基于综合词典对继电保护定值名称进行分词操作,形成分词结果词序列,综合词典为包含中文、英文和序号类字符的继电保护专业词典;
2)对目标空间中的定值项计算其改进Jaccard相似度;
3)满足相似度阈值的定值项进行定值比对;
4)通过定值项取值比较结果的反馈进行二次匹配进一步提高匹配的准确度;
所述综合词典在结构上分为三层,包括首字Hash表、词索引表和词典正文;所述首字Hash表包括首字、最大词长和第一项指针;其中首字为词典中记录的词条的第一个字;最大词长为对应首字在词典中所有词条词长的最大值;第一项指针为首字在词索引表中的起始位置;所述词索引表包括所有词长和词典正文指针;其中所有词长为对应首字所有词条的长度,词长在索引表中按降序排列;词典正文指针为指向对应词长的词条在词典正文中的起始位置;所述词典正文包括词条、复合型词标志和同义词标志;其中词条涵盖继电保护定值名称中出现的所有词,包括中文词汇、英文词汇和序号类字符;复合型标志的数据类型为布尔型,“0”表示该词条非复合型词汇,“1”表示该词条为复合型词汇;同义词标志数据类型为无符号整形,“0”表示该词条在词典中不存在同义词或者该词条为所有同义词的标志性表达,非零整数表示该词条在词典中存在同义词,且该整数即对应的标志性同义词在词典中的序号;所述复合型词是由序号类词和中心词复合才能表达完整语义的词条;相对的,不含序号类词的词条为单一型词。
2.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法,其特征在于:所述的分词结果词序列的数据结构包含词和权值两项,所述权值按照词类型的差异赋予不同的权值:复合型词权值赋10,单一型词权值赋1。
3.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法,其特征在于:所述分词操作为正向最大匹配算法,所述最大正向匹配算法在分词过程中将同义词替换为同义词标志性表达,具体包括如下步骤:
1-1)初始化待切分字符串S=B1L Bn和分词结果词序列G,i=1;
1-2)判断Bi是否为字符串结束标识符,若是,转(1-11);否则转(1-3);
1-3)判断Bi是否为序号类字符,若是,转(1-4);否则转(1-5);
1-4)判断Bi后一个词是否为复合型词,若是,转(1-7);否则转(1-10);
1-5)判断以Bi为首字的词是否为复合型词,若是,转(1-6);否则转(1-10);
1-6)判断后一个词是否为序号类词,若是,转(1-7);否则转(1-10);
1-7)将该序号类词转换为同类标志词,并将其与复合型词合成一个完整的词M;
1-8)更新G,将M添加到G中,同时给M的权值数据项赋10,转(1-10);
1-9)更新S,将M从S中删除,转(1-2);
1-10)i=i+1,转(1-2);
1-11)判断S是否为空,若是,转(1-19);否则转(1-12);
1-12)取S首字F,由Hash函数确定F在首字Hash表中的位置;
1-13)由F的位置获取对应的最大词长和第一项指针;
1-14)从S的左侧开始,取出长度为最大词长的候选子串M,若候选字串M的词长小于最大词长,取S作为M;
1-15)由第一项指针获得在词索引表中的位置,进而获取对应词长在词典正文位置,判断M是否在词典中,若是,转(1-17);否则转(1-16);
1-16)更新M,去除M右侧一个字符,转(1-15);
1-17)判断M是否存在同义词,若存在,得到其同义词M*
1-18)更新S,将M或M*从S中删除;
1-19)更新G,将M或M*添加到G中,同时给M或M*的权值数据项赋1,转(1-11);
1-20)返回G。
4.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法,其特征在于:所述改进Jaccard相似性度量是基于分词技术的,其具体计算公式如下:
Figure FDA0004059158820000021
其中S*={s1L siL sm},为分词后的源字符串集合,T*={t1L tjL tn},为分词后的目标字符串集合,
Figure FDA0004059158820000022
为两个集合中单一型词交运算的元素个数,
Figure FDA0004059158820000023
为两个集合中单一型词并运算的元素个数,
Figure FDA0004059158820000024
为两个集合中复合型词交运算的元素个数,
Figure FDA0004059158820000031
为两个集合中复合型词并运算的元素个数。
5.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法,其特征在于:所述步骤2)首先依次计算源字符串和候选空间T2中目标串的Jaccard距离,得到满足J(S*,T*)>q的定值项序列,然后对满足要求的定值项按照相似度从大到小排列,对相似度最大的定值项进行定值的核对;其中θ为给定的相似度阈值。
6.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法,其特征在于:所述步骤4)具体包括:对满足要求且按相似度从大到小排列的定值序列,先取相似度最大的定值项进行定值项取值的比对,若定值项取值一致,则判定该项定值正确;若定值不一致,则按照顺序进行序列中下一项候选定值项的取值一致性比对,若一致则判定该项定值是与源串对应的定值项,且该项定值取值正确,否则继续下一项定值的验证;若整个定值项序列校核结束,仍无取值一致的定值项,则判定相似度最大的为与源串对应的定值项且该项定值取值错误。
7.根据权利要求1所述的基于综合字典特性的继电保护定值自适应校核方法,其特征在于:在所述的步骤(1)和步骤(2)之间,还包括一个双重过滤机制进行过滤的步骤,所述的双重过滤机制具体为类型过滤和首项过滤结合的双重过滤机制;首先按照定值类型对原始目标空间T={t1,t2L tl}进行过滤,得到符合定值类型要求的定值项空间T1,然后对T1继续进行首项过滤,得到搜索空间T2。
8.根据权利要求7所述的基于综合字典特性的继电保护定值自适应校核方法,其特征在于:所述类型过滤具体包括如下步骤:
2-1)获取源字符串s及其定值类型CS
2-2)按照定值类型对原始目标空间T进行筛选,得到符合定值类型要求的定值项集合T1。
9.根据权利要求7所述的基于综合字典特性的继电保护定值自适应校核方法,其特征在于:所述首项过滤是基于定值名称分词后的词序列的,词序列按照先复合型词再单一型词的顺序排列,具体包括如下步骤:
3-1)获取源字符串序列s*及其首项
Figure FDA0004059158820000032
3-2)从候选集T1中获取字符串序列
Figure FDA0004059158820000033
i=1;
3-3)取
Figure FDA0004059158820000034
第i个词
Figure FDA0004059158820000035
3-4)判断
Figure FDA0004059158820000041
Figure FDA0004059158820000042
是否为同型词,若是,转3-5);否则,转9);
3-5)判断
Figure FDA0004059158820000043
Figure FDA0004059158820000044
是否相同,若是,转3-8);否则,转3-6);
6)i=i+1;
7)判断i>n是否成立,若是,转3-9);否则,转3-3);
8)将
Figure FDA0004059158820000045
添加到搜索集T2;
9)将
Figure FDA0004059158820000046
从T1中删除;
10)判断搜索空间T1是否为空,若是,则结束;否则转3-2);
其中,n为
Figure FDA0004059158820000047
中词个数。
CN201911259281.1A 2019-12-10 2019-12-10 一种基于综合字典特性的继电保护定值自适应校核方法 Active CN110991184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911259281.1A CN110991184B (zh) 2019-12-10 2019-12-10 一种基于综合字典特性的继电保护定值自适应校核方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911259281.1A CN110991184B (zh) 2019-12-10 2019-12-10 一种基于综合字典特性的继电保护定值自适应校核方法

Publications (2)

Publication Number Publication Date
CN110991184A CN110991184A (zh) 2020-04-10
CN110991184B true CN110991184B (zh) 2023-04-07

Family

ID=70091857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911259281.1A Active CN110991184B (zh) 2019-12-10 2019-12-10 一种基于综合字典特性的继电保护定值自适应校核方法

Country Status (1)

Country Link
CN (1) CN110991184B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182313A (zh) * 2020-09-30 2021-01-05 国网青海省电力公司 一种继电保护定值名称匹配方法、系统
CN113010695A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种适用于继电保护装置缺陷分析的专业词典构建方法
CN113641877B (zh) * 2021-08-17 2023-07-14 华北电力大学(保定) 一种继电保护定值智能比对方法
CN113849708A (zh) * 2021-09-18 2021-12-28 山东送变电工程有限公司 一种定值项的匹配方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU1769629C (ru) * 1988-03-09 1995-04-20 Мариупольский металлургический институт Автоматическое устройство для диагностирования релейной защиты
CN105677833A (zh) * 2016-01-06 2016-06-15 云南电网有限责任公司电力科学研究院 一种基于文本挖掘技术提取断路器故障特征信息的方法
CN107357784A (zh) * 2017-07-05 2017-11-17 东南大学 一种继电保护装置设备数据模型智能分析方法
CN107863748A (zh) * 2017-11-28 2018-03-30 国网福建省电力有限公司 一种基于配电自动化保护定值远方修改的方法
CN108985467A (zh) * 2018-06-22 2018-12-11 贵州电网有限责任公司 基于人工智能的二次设备精益化管控方法
CN109765447A (zh) * 2019-01-29 2019-05-17 国网冀北电力有限公司唐山供电公司 一种智能变电站继电保护自动测试方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU1769629C (ru) * 1988-03-09 1995-04-20 Мариупольский металлургический институт Автоматическое устройство для диагностирования релейной защиты
CN105677833A (zh) * 2016-01-06 2016-06-15 云南电网有限责任公司电力科学研究院 一种基于文本挖掘技术提取断路器故障特征信息的方法
CN107357784A (zh) * 2017-07-05 2017-11-17 东南大学 一种继电保护装置设备数据模型智能分析方法
CN107863748A (zh) * 2017-11-28 2018-03-30 国网福建省电力有限公司 一种基于配电自动化保护定值远方修改的方法
CN108985467A (zh) * 2018-06-22 2018-12-11 贵州电网有限责任公司 基于人工智能的二次设备精益化管控方法
CN109765447A (zh) * 2019-01-29 2019-05-17 国网冀北电力有限公司唐山供电公司 一种智能变电站继电保护自动测试方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"基于多资源的同义词和下位词抽取及在人名消歧中的应用";范庆虎;《中国优秀硕士学位论文全文数据库》;20150315;正文51-52页4.3.1小节 *
"基于改进编辑距离算法的保护装置测试模板开发";林道鸿 陈中;《广东电力》;20181030;正文37-40页 *
"改进的基于词典的中文分词方法";莫建文;《计算机工程与设计》;20130704;全文 *
"电网调控技术支持系统异动智能管理分析及自动稽查技术的研究";兰翠芸;《中国优秀硕士学位论文全文数据库》;20190515;全文 *
System B Cui."Synchrophasor Based Failure Diagnosis and Asset Monitoring in Transmission Network Protection".《ProQuest》.2018, *

Also Published As

Publication number Publication date
CN110991184A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110991184B (zh) 一种基于综合字典特性的继电保护定值自适应校核方法
CN106649597B (zh) 一种基于图书内容的图书书后索引自动构建方法
CN107193921B (zh) 面向搜索引擎的中英混合查询纠错的方法及系统
US11256856B2 (en) Method, device, and system, for identifying data elements in data structures
CN108829780B (zh) 文本检测方法、装置、计算设备及计算机可读存储介质
CN110362824B (zh) 一种自动纠错的方法、装置、终端设备及存储介质
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN110377901B (zh) 一种针对配电线路跳闸填报案例的文本挖掘方法
CN102402561B (zh) 一种搜索方法和装置
CN113282689B (zh) 基于领域知识图谱的检索方法、装置
CN110569328A (zh) 实体链接方法、电子装置及计算机设备
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN106649557B (zh) 一种缺陷报告与邮件列表语义关联挖掘方法
CN113901825B (zh) 一种基于主动深度学习的实体关系联合抽取方法及系统
CN105335456B (zh) 一种用于环境保护法规检索的关联优先排序方法
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和系统
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN105843960A (zh) 基于语义树的索引方法和系统
CN109165331A (zh) 一种英文地名的索引建立方法及其查询方法和装置
CN115794833A (zh) 数据处理方法、服务器和计算机存储介质
CN106096014A (zh) 基于dmr的混合长度文本集的文本聚类方法
CN109271560A (zh) 一种基于树模板的链接数据关键词查询方法
CN108536796B (zh) 一种基于图的异构本体匹配方法及系统
CN116522872A (zh) 一种基于相似度计算的元数据字段中文名补全方法、存储介质及系统
Freire et al. Identification of FRBR works within bibliographic databases: An experiment with UNIMARC and duplicate detection techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant