CN107357784A - 一种继电保护装置设备数据模型智能分析方法 - Google Patents
一种继电保护装置设备数据模型智能分析方法 Download PDFInfo
- Publication number
- CN107357784A CN107357784A CN201710541955.1A CN201710541955A CN107357784A CN 107357784 A CN107357784 A CN 107357784A CN 201710541955 A CN201710541955 A CN 201710541955A CN 107357784 A CN107357784 A CN 107357784A
- Authority
- CN
- China
- Prior art keywords
- character
- character string
- data model
- lead
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种继电保护装置设备数据模型智能分析方法,包括分词策略、带最大词长的继电保护专用词典机制和动态获取最大词长的改进正向最大匹配算法;改进正向最大匹配算法基于继电保护专用词典,对继电保护装置设备数据模型中数据对象的名称进行分词,以实现对继电保护装置设备数据模型的智能分析。本发明的智能分析方法实现对继电保护装置设备数据模型的高效、快速分析,将分析的结果输出形成关键字集合,达到提高设备数据模型分析的智能化和自动化的目的。
Description
技术领域
本发明属于继电保护测试技术领域,尤其涉及一种继电保护装置设备数据模型智能分析方法。
背景技术
随着各种保护厂家推出大量不同的保护装置,在设备数据模型和测试模版上存在多样化,这就导致大量的时间花费在对测试模板的选择和编辑上,在这一意义上,继电保护装置自动测试始终无法真正实现智能化和自动化。
当前变电站测试领域,就继电保护装置单体调试而言,已经可以实现自动测试,测试过程自动化程度较高,人工干预较少。虽然整个测试过程基本实现自动化,但针对不同型号的保护装置,当前已有的自动测试系统需要利用测试方案二次开发平台以编辑不同的测试方案,编辑过程较为繁琐,耗时较长。不同的测试仪厂家均具有自己独立的测试模板和对设备数据不同的描述规则,且不统一。所以,如果对多个厂家的同一个类型的保护装置重复性测试,测试人员和物力资源过多消耗在重复性工作中,导致资源浪费和效率不高。因此,研究继电保护装置设备数据模型的智能分析方法,实现继电保护装置自动测试方案智能生成变得十分迫切。
发明内容
发明目的:针对以上问题,本发明提出一种继电保护装置设备数据模型智能分析方法,实现对继电保护装置设备数据模型的高效、快速分析,将分析的结果输出形成关键字集合,达到提高设备数据模型分析的智能化和自动化的目的。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种继电保护装置设备数据模型智能分析方法,包括分词策略、继电保护专用词典机制和改进正向最大匹配算法。
进一步地,分词策略为中文分词与非汉字字符同时处理的分词策略,具体包括以下步骤:
步骤一:初始化待切分字符串和分词结果字符串;
步骤二:判断待分词字符串是否为空;若不为空转步骤三;若为空转步骤八;
步骤三:取待分词字符串首字符,判断其字符类型;若为英文字符、数字、空格符、回车符和换行符,转步骤四;若为非汉子双字节特殊字符,转步骤五;若为中文汉子字符,转步骤六;
步骤四:统计并截取连续的英文字符、数字、空格符、回车符和换行符,共计i个,作为分词结果字符串的自增量,转步骤七;
步骤五:统计并截取连续的非汉字双字节特殊字符,共计i个,作为分词结果字符串的自增量,转步骤七;
步骤六:统计并截取连续的中文汉字字符,共计i个,作为分词结果字符串的自增量,转步骤七;
步骤七:更新待切分字符串,将待分词字符串第i位至最后一位作为新值赋给待分词字符串,转步骤二;
步骤八:返回输出分词结果字符串。
进一步地,继电保护专用词典机制为带最大词长的继电保护专用词典机制,在结构上分为三层,包括首字哈希表、词索引表和词典正文。
首字哈希表包括首字、最大词长、第一项指针和最末项指针;其中,首字为继电保护专用词典中记录的关键词的第一个字;最大词长用于存储对应首字所有词长中的最大值;第一项指针用于指向首字在索引表中的起始位置;最末项指针用于指向首字在索引表中的最末位置。
词索引表包括所有词长和词典正文指针;其中,所有词长为首字对应关键词的所有词长;词典正文指针指向该词长在词典正文中的第一个词的位置。
词典正文用于记录继电保护专业的所有关键词。
进一步地,改进正向最大匹配算法为动态获取最大词长的改进正向最大匹配算法,具体包括如下步骤:
步骤一:初始化待切分字符串和输出词串;
步骤二:判断待切分字符串是否为空;若是为空转步骤十一;若不为空转步骤三;
步骤三:取待切分字符串首字,并获取首字在哈希表中的位置;
步骤四:获取存储在该位置的最大词长;
步骤五:从待切分字符串左边开始,取出候选字符串,候选字符串的长度不大于最大词长;
步骤六:查找词典,判断候选字符串是否在词典中;若是,转步骤九;否则转步骤七;
步骤七:更新候选字符串,将候选字符串最右边一个字符去掉;
步骤八:判断候选字符串是否为单字;若是,转步骤九;否则转步骤六;
步骤九:更新输出词串,将候选字符串添加到输出词串;
步骤十:更新待切分字符串,将待切分字符串去除候选字符串的剩余部分赋给待切分字符串,转步骤二;
步骤十一:返回输出词串。
有益效果:本发明能够实现对继电保护装置设备数据模型的高效、快速分析,将分析的结果输出形成关键字集合,达到提高设备数据模型分析的智能化和自动化的目的。
附图说明
图1是中文分词与非汉字字符同时处理的分词策略流程图;
图2是带最大词长的继电保护专用词典机制示意图;
图3是动态获取最大词长的改进正向最大匹配算法流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明的继电保护装置设备数据模型智能分析方法,具体包括:(1)分词策略,为中文分词与非汉字字符分词同时处理的策略;(2)继电保护专用词典机制,为带最大词长的继电保护专用词典机制;(3)改进正向最大匹配算法,为动态获取最大词长的改进正向最大匹配算法。
本发明的中文分词与非汉字字符分词同时处理的分词策略流程图如图1所示,具体包括以下步骤:
步骤一:初始化待切分字符串s1和分词结果字符串s2;
步骤二:判断待分词字符串是否为空;若不为空转步骤三;若为空转步骤八;
步骤三:取待分词字符串首字符,判断字符类型;若为英文字符、数字、空格符、回车符和换行符(ASCII码值小于128),转步骤四;若为非汉子双字节特殊字符(ASCII码值大于等于128,小于176),转步骤五;若为中文汉子字符(ASCII码值大于等于176),转步骤六;
步骤四:统计并截取连续的英文字符、数字、空格符、回车符和换行符,共计i个,作为分词结果字符串的自增量,转步骤七;
步骤五:统计并截取连续的非汉字双字节特殊字符,共计i个,作为分词结果字符串的自增量,转步骤七;
步骤六:统计并截取连续的中文汉字字符,共计i个,作为分词结果字符串的自增量,转步骤七;
步骤七:更新待切分字符串,将待分词字符串第i位至最后一位作为新值赋给待分词字符串,s1=s1.substr(i),转步骤二;
步骤八:返回输出分词结果字符串。
上述步骤六中对连续的中文汉子字符进行分词,分词流程详见动态获取最大词长的改进正向最大匹配算法流程。
本发明的带最大词长的继电保护专用词典机制示意图如图2所示,具体包括三层结构:
第一层:首字哈希表(Hash),包括首字、最大词长、第一项指针和最末项指针。首字为继电保护专用词典中记录的关键词的第一个字,最大词长用于存储对应首字所有词长中的最大值,第一项指针用于指向首字在索引表中的起始位置,最末项指针用于指向首字在索引表中的最末位置。
第二层:词索引表,包括所有词长和词典正文指针。所有词长为首字对应关键词的所有词长,词典正文指针指向该词长在词典正文中的第一个词的位置。
第三层:词典正文,用于记录继电保护专业的所有关键词。
本发明的动态获取最大词长的改进正向最大匹配算法流程图如图3所示,具体包括如下步骤:
步骤一:初始化待切分字符串s1和输出词串s2;
步骤二:判断待切分字符串是否为空;若是为空转步骤十一;若不为空转步骤三;
步骤三:取待切分字符串首字,并获取首字在哈希表中的位置;
具体为,使用首字Hash函数,计算首字在编码表中的唯一偏移量,以确定首字在Hash首字表中的索引,首字Hash函数为Offset=(c1-0xB0)*94+(c2-0xA1);其中,Offset为首字在汉子编码表中的位置,c1和c2分别为首字内部码的高低字节。
步骤四:获取存储在该位置的最大词长;
步骤五:从待切分字符串左边开始,取出候选字符串,候选字符串的长度不大于最大词长;比较最大词长L1和待切分字符串词长L2的大小,候选字符串的长度取其较小者;
步骤六:查找词典,判断候选字符串是否在词典中,若是,转步骤九,否则转步骤七;
步骤七:更新候选字符串,将候选字符串最右边一个字符去掉;
步骤八:判断候选字符串是否为单字,若是,转步骤九,否则转步骤六;
步骤九:更新输出词串,将候选词串添加到输出词串;
步骤十:更新待切分字符串,将待切分字符串去除候选字符串的剩余部分赋给待切分字符串,转步骤二;
步骤十一:返回输出词串。
下面说明根据本发明的继电保护装置设备数据模型智能分析方法的一个示例过程。
取待切分字符串“纵差差动速断投入”,为便于理解最大词长的获取,作下述说明:
(1)词典中以“纵”字为首字的关键词有“纵联”、“纵差”,最大词长为2;
(2)词典中以“差”字为首字的关键词有“差流”、“差电流”、“差异大”、“差动电流”,最大词长为4;
(3)词典中以“速”字为首字的关键词有“速断”、“速动”,最大词长为2;
(4)词典中以“投”字为首字的关键词有“投入”,最大词长为2。
具体步骤如下:
首先获取待切分字符串的首字为“纵”,根据首字Hash函数获取首字在Hash首字表中的位置,获取该位置的最大词长,max_len为2。
从待切分字符串左侧开始,获取长度为2的候选字符串“纵差”,在继电保护专用词典中进行匹配,匹配成功,将候选字符串“纵差”添加至输出字符串。
更新待切分字符串为“差动速断投入”,获取待切分字符串的首字为“差”,根据首字Hash函数获取首字在Hash首字表中的位置,获取该位置的最大词长,max_len为4。
从待切分字符串左侧开始,获取长度为4的候选字符串“差动速断”,在继电保护专用词典中进行匹配,匹配失败。
更新候选字符串为“差动速”,在继电保护专用词典中进行匹配,匹配失败。
更新候选字符串为“差动”,在继电保护专用词典中进行匹配,匹配成功,将候选字符串“差动”添加至输出字符串,输出字符串为“纵差差动”。
更新待切分字符串为“速断投入”,获取待切分字符串的首字为“速”,根据首字Hash函数获取首字在Hash首字表中的位置,获取该位置的最大词长,max_len为2。
从待切分字符串左侧开始,获取长度为2的候选字符串“速断”,在继电保护专用词典中进行匹配,匹配成功,将候选字符串“速断”添加至输出字符串,输出字符串为“纵差差动速断”。
更新待切分字符串为“投入”,获取待切分字符串的首字为“投”,根据首字Hash函数获取首字在Hash首字表中的位置,获取该位置的最大词长,max_len为2。
从待切分字符串左侧开始,获取长度为2的候选字符串“投入”,在继电保护专用词典中进行匹配,匹配成功,将候选字符串“投入”添加至输出字符串,输出字符串为“纵差差动速断投入”。
至此,字符串“纵差差动速断投入”切分结束,分词结果为“纵差差动速断投入”。
Claims (10)
1.一种继电保护装置设备数据模型智能分析方法,其特征在于:包括分词策略、继电保护专用词典机制和改进正向最大匹配算法。
2.根据权利要求1所述的继电保护装置设备数据模型智能分析方法,其特征在于:所述分词策略为中文分词与非汉字字符同时处理的分词策略。
3.根据权利要求2所述的继电保护装置设备数据模型智能分析方法,其特征在于:所述分词策略具体包括以下步骤:
步骤一:初始化待切分字符串和分词结果字符串;
步骤二:判断待分词字符串是否为空;若不为空转步骤三;若为空转步骤八;
步骤三:取待分词字符串首字符,判断其字符类型;若为英文字符、数字、空格符、回车符和换行符,转步骤四;若为非汉子双字节特殊字符,转步骤五;若为中文汉子字符,转步骤六;
步骤四:统计并截取连续的英文字符、数字、空格符、回车符和换行符,共计i个,作为分词结果字符串的自增量,转步骤七;
步骤五:统计并截取连续的非汉字双字节特殊字符,共计i个,作为分词结果字符串的自增量,转步骤七;
步骤六:统计并截取连续的中文汉字字符,共计i个,作为分词结果字符串的自增量,转步骤七;
步骤七:更新待切分字符串,将待分词字符串第i位至最后一位作为新值赋给待分词字符串,转步骤二;
步骤八:返回输出分词结果字符串。
4.根据权利要求1所述的继电保护装置设备数据模型智能分析方法,其特征在于:所述继电保护专用词典机制为带最大词长的继电保护专用词典机制。
5.根据权利要求4所述的继电保护装置设备数据模型智能分析方法,其特征在于:所述带最大词长的继电保护专用词典机制在结构上分为三层,包括首字哈希表、词索引表和词典正文。
6.根据权利要求5所述的继电保护装置设备数据模型智能分析方法,其特征在于:所述首字哈希表包括首字、最大词长、第一项指针和最末项指针;其中,首字为继电保护专用词典中记录的关键词的第一个字;最大词长用于存储对应首字所有词长中的最大值;第一项指针用于指向首字在索引表中的起始位置;最末项指针用于指向首字在索引表中的最末位置。
7.根据权利要求5所述的继电保护装置设备数据模型智能分析方法,其特征在于:所述词索引表包括所有词长和词典正文指针;其中,所有词长为首字对应关键词的所有词长;词典正文指针指向该词长在词典正文中的第一个词的位置。
8.根据权利要求5所述的继电保护装置设备数据模型智能分析方法,其特征在于:所述词典正文用于记录继电保护专业的所有关键词。
9.根据权利要求1所述的继电保护装置设备数据模型智能分析方法,其特征在于:所述改进正向最大匹配算法为动态获取最大词长的改进正向最大匹配算法。
10.根据权利要求9所述的继电保护装置设备数据模型智能分析方法,其特征在于:所述动态获取最大词长的改进正向最大匹配算法具体包括如下步骤:
步骤一:初始化待切分字符串和输出词串;
步骤二:判断待切分字符串是否为空;若是为空转步骤十一;若不为空转步骤三;
步骤三:取待切分字符串首字,并获取首字在哈希表中的位置;
步骤四:获取存储在该位置的最大词长;
步骤五:从待切分字符串左边开始,取出候选字符串,候选字符串的长度不大于最大词长;
步骤六:查找词典,判断候选字符串是否在词典中;若是,转步骤九;否则转步骤七;
步骤七:更新候选字符串,将候选字符串最右边一个字符去掉;
步骤八:判断候选字符串是否为单字;若是,转步骤九;否则转步骤六;
步骤九:更新输出词串,将候选字符串添加到输出词串;
步骤十:更新待切分字符串,将待切分字符串去除候选字符串的剩余部分赋给待切分字符串,转步骤二;
步骤十一:返回输出词串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710541955.1A CN107357784B (zh) | 2017-07-05 | 2017-07-05 | 一种继电保护装置设备数据模型智能分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710541955.1A CN107357784B (zh) | 2017-07-05 | 2017-07-05 | 一种继电保护装置设备数据模型智能分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107357784A true CN107357784A (zh) | 2017-11-17 |
CN107357784B CN107357784B (zh) | 2021-01-26 |
Family
ID=60291799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710541955.1A Active CN107357784B (zh) | 2017-07-05 | 2017-07-05 | 一种继电保护装置设备数据模型智能分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107357784B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110687375A (zh) * | 2019-10-11 | 2020-01-14 | 南京能云电力科技有限公司 | 一种继电保护装置并行自动测试系统及方法 |
CN110991184A (zh) * | 2019-12-10 | 2020-04-10 | 国网青海省电力公司 | 一种基于综合字典特性的继电保护定值自适应校核方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1201254C (zh) * | 1998-05-29 | 2005-05-11 | 微软公司 | 中文文本中的词分割 |
CN102004767A (zh) * | 2010-11-10 | 2011-04-06 | 北京航空航天大学 | 一种基于抽象业务逻辑的交互式语义Web服务动态组合方法 |
CN102541865A (zh) * | 2010-12-15 | 2012-07-04 | 盛乐信息技术(上海)有限公司 | 利用分词过程中识别的新词改善分词性能的方法 |
US20150019571A1 (en) * | 2010-12-03 | 2015-01-15 | Innovatia Inc. | Method for population of object property assertions |
CN105138514A (zh) * | 2015-08-24 | 2015-12-09 | 昆明理工大学 | 一种基于词典的正向逐次加一字最大匹配中文分词方法 |
-
2017
- 2017-07-05 CN CN201710541955.1A patent/CN107357784B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1201254C (zh) * | 1998-05-29 | 2005-05-11 | 微软公司 | 中文文本中的词分割 |
CN102004767A (zh) * | 2010-11-10 | 2011-04-06 | 北京航空航天大学 | 一种基于抽象业务逻辑的交互式语义Web服务动态组合方法 |
US20150019571A1 (en) * | 2010-12-03 | 2015-01-15 | Innovatia Inc. | Method for population of object property assertions |
CN102541865A (zh) * | 2010-12-15 | 2012-07-04 | 盛乐信息技术(上海)有限公司 | 利用分词过程中识别的新词改善分词性能的方法 |
CN105138514A (zh) * | 2015-08-24 | 2015-12-09 | 昆明理工大学 | 一种基于词典的正向逐次加一字最大匹配中文分词方法 |
Non-Patent Citations (1)
Title |
---|
王瑞雷等: "一种改进的中文分词正向最大匹配算法", 《计算机应用与软件》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110687375A (zh) * | 2019-10-11 | 2020-01-14 | 南京能云电力科技有限公司 | 一种继电保护装置并行自动测试系统及方法 |
CN110687375B (zh) * | 2019-10-11 | 2021-08-20 | 南京能云电力科技有限公司 | 一种继电保护装置并行自动测试系统及方法 |
CN110991184A (zh) * | 2019-12-10 | 2020-04-10 | 国网青海省电力公司 | 一种基于综合字典特性的继电保护定值自适应校核方法 |
CN110991184B (zh) * | 2019-12-10 | 2023-04-07 | 国网青海省电力公司 | 一种基于综合字典特性的继电保护定值自适应校核方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107357784B (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100511215C (zh) | 多语种翻译存储器和翻译方法 | |
US10268758B2 (en) | Method and system of acquiring semantic information, keyword expansion and keyword search thereof | |
CN111124487B (zh) | 代码克隆检测方法、装置以及电子设备 | |
CN105550170B (zh) | 一种中文分词方法及装置 | |
CN103488752B (zh) | 一种poi智能检索的检索方法 | |
CN103440252B (zh) | 一种中文句子中并列信息提取方法及装置 | |
CN107004141A (zh) | 对大样本组的高效标注 | |
CN105912514A (zh) | 基于指纹特征的文本复制检测系统及方法 | |
CN113553420A (zh) | 基于知识图谱的电网故障处理规程推荐方法和系统 | |
CN106569993A (zh) | 一种挖掘领域术语间上下位关系的方法及装置 | |
CN107436955A (zh) | 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置 | |
US20110153640A1 (en) | Indexing documents using internal index sets | |
CN107357784A (zh) | 一种继电保护装置设备数据模型智能分析方法 | |
CN106648753A (zh) | 一种基于逆波兰式算法的判据自动解析方法 | |
CN114860942A (zh) | 文本意图分类方法、装置、设备及存储介质 | |
CN108153728A (zh) | 一种关键词确定方法及装置 | |
CN105550254B (zh) | 一种icd信息自动生成icd信息数据库的方法 | |
CN1252577A (zh) | 用于处理中文电传文件的方法和装置 | |
CN104704487A (zh) | 翻译处理装置及程序 | |
US9892107B2 (en) | Associating mentioned items between documents | |
CN107491441A (zh) | 一种基于强制解码的动态抽取翻译模板的方法 | |
JP2960936B2 (ja) | 係り受け解析装置 | |
Luttmer et al. | Requirements extraction from engineering standards–systematic evaluation of extraction techniques | |
CN110362694A (zh) | 基于人工智能的文献数据检索方法、设备及可读存储介质 | |
CN104239294A (zh) | 藏汉翻译系统的多策略藏语长句切分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |