CN107357784A

CN107357784A - 一种继电保护装置设备数据模型智能分析方法

Info

Publication number: CN107357784A
Application number: CN201710541955.1A
Authority: CN
Inventors: 陈中; 邵雷; 方国权
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2017-11-17
Anticipated expiration: 2037-07-05
Also published as: CN107357784B

Abstract

本发明公开了一种继电保护装置设备数据模型智能分析方法，包括分词策略、带最大词长的继电保护专用词典机制和动态获取最大词长的改进正向最大匹配算法；改进正向最大匹配算法基于继电保护专用词典，对继电保护装置设备数据模型中数据对象的名称进行分词，以实现对继电保护装置设备数据模型的智能分析。本发明的智能分析方法实现对继电保护装置设备数据模型的高效、快速分析，将分析的结果输出形成关键字集合，达到提高设备数据模型分析的智能化和自动化的目的。

Description

一种继电保护装置设备数据模型智能分析方法

技术领域

本发明属于继电保护测试技术领域，尤其涉及一种继电保护装置设备数据模型智能分析方法。

背景技术

随着各种保护厂家推出大量不同的保护装置，在设备数据模型和测试模版上存在多样化，这就导致大量的时间花费在对测试模板的选择和编辑上，在这一意义上，继电保护装置自动测试始终无法真正实现智能化和自动化。

当前变电站测试领域，就继电保护装置单体调试而言，已经可以实现自动测试，测试过程自动化程度较高，人工干预较少。虽然整个测试过程基本实现自动化，但针对不同型号的保护装置，当前已有的自动测试系统需要利用测试方案二次开发平台以编辑不同的测试方案，编辑过程较为繁琐，耗时较长。不同的测试仪厂家均具有自己独立的测试模板和对设备数据不同的描述规则，且不统一。所以，如果对多个厂家的同一个类型的保护装置重复性测试，测试人员和物力资源过多消耗在重复性工作中，导致资源浪费和效率不高。因此，研究继电保护装置设备数据模型的智能分析方法，实现继电保护装置自动测试方案智能生成变得十分迫切。

发明内容

发明目的：针对以上问题，本发明提出一种继电保护装置设备数据模型智能分析方法，实现对继电保护装置设备数据模型的高效、快速分析，将分析的结果输出形成关键字集合，达到提高设备数据模型分析的智能化和自动化的目的。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种继电保护装置设备数据模型智能分析方法，包括分词策略、继电保护专用词典机制和改进正向最大匹配算法。

进一步地，分词策略为中文分词与非汉字字符同时处理的分词策略，具体包括以下步骤：

步骤一：初始化待切分字符串和分词结果字符串；

步骤二：判断待分词字符串是否为空；若不为空转步骤三；若为空转步骤八；

步骤三：取待分词字符串首字符，判断其字符类型；若为英文字符、数字、空格符、回车符和换行符，转步骤四；若为非汉子双字节特殊字符，转步骤五；若为中文汉子字符，转步骤六；

步骤四：统计并截取连续的英文字符、数字、空格符、回车符和换行符，共计i个，作为分词结果字符串的自增量，转步骤七；

步骤五：统计并截取连续的非汉字双字节特殊字符，共计i个，作为分词结果字符串的自增量，转步骤七；

步骤六：统计并截取连续的中文汉字字符，共计i个，作为分词结果字符串的自增量，转步骤七；

步骤七：更新待切分字符串，将待分词字符串第i位至最后一位作为新值赋给待分词字符串，转步骤二；

步骤八：返回输出分词结果字符串。

进一步地，继电保护专用词典机制为带最大词长的继电保护专用词典机制，在结构上分为三层，包括首字哈希表、词索引表和词典正文。

首字哈希表包括首字、最大词长、第一项指针和最末项指针；其中，首字为继电保护专用词典中记录的关键词的第一个字；最大词长用于存储对应首字所有词长中的最大值；第一项指针用于指向首字在索引表中的起始位置；最末项指针用于指向首字在索引表中的最末位置。

词索引表包括所有词长和词典正文指针；其中，所有词长为首字对应关键词的所有词长；词典正文指针指向该词长在词典正文中的第一个词的位置。

词典正文用于记录继电保护专业的所有关键词。

进一步地，改进正向最大匹配算法为动态获取最大词长的改进正向最大匹配算法，具体包括如下步骤：

步骤一：初始化待切分字符串和输出词串；

步骤二：判断待切分字符串是否为空；若是为空转步骤十一；若不为空转步骤三；

步骤三：取待切分字符串首字，并获取首字在哈希表中的位置；

步骤四：获取存储在该位置的最大词长；

步骤五：从待切分字符串左边开始，取出候选字符串，候选字符串的长度不大于最大词长；

步骤六：查找词典，判断候选字符串是否在词典中；若是，转步骤九；否则转步骤七；

步骤七：更新候选字符串，将候选字符串最右边一个字符去掉；

步骤八：判断候选字符串是否为单字；若是，转步骤九；否则转步骤六；

步骤九：更新输出词串，将候选字符串添加到输出词串；

步骤十：更新待切分字符串，将待切分字符串去除候选字符串的剩余部分赋给待切分字符串，转步骤二；

步骤十一：返回输出词串。

有益效果：本发明能够实现对继电保护装置设备数据模型的高效、快速分析，将分析的结果输出形成关键字集合，达到提高设备数据模型分析的智能化和自动化的目的。

附图说明

图1是中文分词与非汉字字符同时处理的分词策略流程图；

图2是带最大词长的继电保护专用词典机制示意图；

图3是动态获取最大词长的改进正向最大匹配算法流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明的继电保护装置设备数据模型智能分析方法，具体包括：(1)分词策略，为中文分词与非汉字字符分词同时处理的策略；(2)继电保护专用词典机制，为带最大词长的继电保护专用词典机制；(3)改进正向最大匹配算法，为动态获取最大词长的改进正向最大匹配算法。

本发明的中文分词与非汉字字符分词同时处理的分词策略流程图如图1所示，具体包括以下步骤：

步骤一：初始化待切分字符串s1和分词结果字符串s2；

步骤三：取待分词字符串首字符，判断字符类型；若为英文字符、数字、空格符、回车符和换行符(ASCII码值小于128)，转步骤四；若为非汉子双字节特殊字符(ASCII码值大于等于128，小于176)，转步骤五；若为中文汉子字符(ASCII码值大于等于176)，转步骤六；

步骤七：更新待切分字符串，将待分词字符串第i位至最后一位作为新值赋给待分词字符串，s1＝s1.substr(i)，转步骤二；

步骤八：返回输出分词结果字符串。

上述步骤六中对连续的中文汉子字符进行分词，分词流程详见动态获取最大词长的改进正向最大匹配算法流程。

本发明的带最大词长的继电保护专用词典机制示意图如图2所示，具体包括三层结构：

第一层：首字哈希表(Hash)，包括首字、最大词长、第一项指针和最末项指针。首字为继电保护专用词典中记录的关键词的第一个字，最大词长用于存储对应首字所有词长中的最大值，第一项指针用于指向首字在索引表中的起始位置，最末项指针用于指向首字在索引表中的最末位置。

第二层：词索引表，包括所有词长和词典正文指针。所有词长为首字对应关键词的所有词长，词典正文指针指向该词长在词典正文中的第一个词的位置。

第三层：词典正文，用于记录继电保护专业的所有关键词。

本发明的动态获取最大词长的改进正向最大匹配算法流程图如图3所示，具体包括如下步骤：

步骤一：初始化待切分字符串s1和输出词串s2；

具体为，使用首字Hash函数，计算首字在编码表中的唯一偏移量，以确定首字在Hash首字表中的索引，首字Hash函数为Offset＝(c1-0xB0)*94+(c2-0xA1)；其中，Offset为首字在汉子编码表中的位置，c1和c2分别为首字内部码的高低字节。

步骤四：获取存储在该位置的最大词长；

步骤五：从待切分字符串左边开始，取出候选字符串，候选字符串的长度不大于最大词长；比较最大词长L1和待切分字符串词长L2的大小，候选字符串的长度取其较小者；

步骤六：查找词典，判断候选字符串是否在词典中，若是，转步骤九，否则转步骤七；

步骤八：判断候选字符串是否为单字，若是，转步骤九，否则转步骤六；

步骤九：更新输出词串，将候选词串添加到输出词串；

步骤十一：返回输出词串。

下面说明根据本发明的继电保护装置设备数据模型智能分析方法的一个示例过程。

取待切分字符串“纵差差动速断投入”，为便于理解最大词长的获取，作下述说明：

(1)词典中以“纵”字为首字的关键词有“纵联”、“纵差”，最大词长为2；

(2)词典中以“差”字为首字的关键词有“差流”、“差电流”、“差异大”、“差动电流”，最大词长为4；

(3)词典中以“速”字为首字的关键词有“速断”、“速动”，最大词长为2；

(4)词典中以“投”字为首字的关键词有“投入”，最大词长为2。

具体步骤如下：

首先获取待切分字符串的首字为“纵”，根据首字Hash函数获取首字在Hash首字表中的位置，获取该位置的最大词长，max_len为2。

从待切分字符串左侧开始，获取长度为2的候选字符串“纵差”，在继电保护专用词典中进行匹配，匹配成功，将候选字符串“纵差”添加至输出字符串。

更新待切分字符串为“差动速断投入”，获取待切分字符串的首字为“差”，根据首字Hash函数获取首字在Hash首字表中的位置，获取该位置的最大词长，max_len为4。

从待切分字符串左侧开始，获取长度为4的候选字符串“差动速断”，在继电保护专用词典中进行匹配，匹配失败。

更新候选字符串为“差动速”，在继电保护专用词典中进行匹配，匹配失败。

更新候选字符串为“差动”，在继电保护专用词典中进行匹配，匹配成功，将候选字符串“差动”添加至输出字符串，输出字符串为“纵差差动”。

更新待切分字符串为“速断投入”，获取待切分字符串的首字为“速”，根据首字Hash函数获取首字在Hash首字表中的位置，获取该位置的最大词长，max_len为2。

从待切分字符串左侧开始，获取长度为2的候选字符串“速断”，在继电保护专用词典中进行匹配，匹配成功，将候选字符串“速断”添加至输出字符串，输出字符串为“纵差差动速断”。

更新待切分字符串为“投入”，获取待切分字符串的首字为“投”，根据首字Hash函数获取首字在Hash首字表中的位置，获取该位置的最大词长，max_len为2。

从待切分字符串左侧开始，获取长度为2的候选字符串“投入”，在继电保护专用词典中进行匹配，匹配成功，将候选字符串“投入”添加至输出字符串，输出字符串为“纵差差动速断投入”。

至此，字符串“纵差差动速断投入”切分结束，分词结果为“纵差差动速断投入”。

Claims

1.一种继电保护装置设备数据模型智能分析方法，其特征在于：包括分词策略、继电保护专用词典机制和改进正向最大匹配算法。

2.根据权利要求1所述的继电保护装置设备数据模型智能分析方法，其特征在于：所述分词策略为中文分词与非汉字字符同时处理的分词策略。

3.根据权利要求2所述的继电保护装置设备数据模型智能分析方法，其特征在于：所述分词策略具体包括以下步骤：

步骤一：初始化待切分字符串和分词结果字符串；

步骤八：返回输出分词结果字符串。

4.根据权利要求1所述的继电保护装置设备数据模型智能分析方法，其特征在于：所述继电保护专用词典机制为带最大词长的继电保护专用词典机制。

5.根据权利要求4所述的继电保护装置设备数据模型智能分析方法，其特征在于：所述带最大词长的继电保护专用词典机制在结构上分为三层，包括首字哈希表、词索引表和词典正文。

6.根据权利要求5所述的继电保护装置设备数据模型智能分析方法，其特征在于：所述首字哈希表包括首字、最大词长、第一项指针和最末项指针；其中，首字为继电保护专用词典中记录的关键词的第一个字；最大词长用于存储对应首字所有词长中的最大值；第一项指针用于指向首字在索引表中的起始位置；最末项指针用于指向首字在索引表中的最末位置。

7.根据权利要求5所述的继电保护装置设备数据模型智能分析方法，其特征在于：所述词索引表包括所有词长和词典正文指针；其中，所有词长为首字对应关键词的所有词长；词典正文指针指向该词长在词典正文中的第一个词的位置。

8.根据权利要求5所述的继电保护装置设备数据模型智能分析方法，其特征在于：所述词典正文用于记录继电保护专业的所有关键词。

9.根据权利要求1所述的继电保护装置设备数据模型智能分析方法，其特征在于：所述改进正向最大匹配算法为动态获取最大词长的改进正向最大匹配算法。

10.根据权利要求9所述的继电保护装置设备数据模型智能分析方法，其特征在于：所述动态获取最大词长的改进正向最大匹配算法具体包括如下步骤：

步骤一：初始化待切分字符串和输出词串；

步骤四：获取存储在该位置的最大词长；

步骤九：更新输出词串，将候选字符串添加到输出词串；

步骤十一：返回输出词串。