CN109800416A - 一种电力设备名称识别方法 - Google Patents

一种电力设备名称识别方法 Download PDF

Info

Publication number
CN109800416A
CN109800416A CN201811535713.2A CN201811535713A CN109800416A CN 109800416 A CN109800416 A CN 109800416A CN 201811535713 A CN201811535713 A CN 201811535713A CN 109800416 A CN109800416 A CN 109800416A
Authority
CN
China
Prior art keywords
character string
vocabulary
dictionary
title
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811535713.2A
Other languages
English (en)
Inventor
宫秀军
周虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201811535713.2A priority Critical patent/CN109800416A/zh
Publication of CN109800416A publication Critical patent/CN109800416A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电力设备名称识别方法,包括以下步骤:(1)构建电网专业词库用于存储词汇;包括直接添加单个词汇、直接添加两个以上词汇、筛选添加词汇;(2)实现分词,将专业词库生成为三叉搜索树,利用数字搜索树和二叉搜索树结合实现快速分词;得到字符串数组或字符串列表;(3)将待识别设备名称和标准设备名称按照步骤(2)分成字符串数组或字符串列表,并提取其中可能符合所属地、电压等级的特征词;(4)根据特征词筛选标准设备名称数据库;将待识别设备名称和标准设备名称分词后得到的两个字符串数组进行相似度计算,得到一个0‑1之间的相似度值,通过设定阈值判断符合条件的字符串,选取相应的数据条目;实现设备相识度识别。

Description

一种电力设备名称识别方法
技术领域
本发明涉及电力设备名称识别领域,具体是涉及一种电力设备名称识别方法,能准确识别电力设备名称并提升电力设备命名匹配的准确率。
背景技术
由于缺乏对电网设备命名标准的统一规范管理,目前调度系统应用常常是各应用自身拥有和维护一套甚至多套台账信息,这导致了涉及的设备台账信息和D5000,各网省OMS设备台账中的命名出现了大量不一致的情况,从而降低了应用的兼容性和拓展性。而在已开发设备匹配工具原型,利用LD相似度算法和jarccard相似度算法匹配配置数据库中制定列中数据的相似度,对大于设定阈值的条目输出对照表,解决大多常见命名不匹配情况,但其准确率不高,难以满足用户需求,所以需要提出准确率更高的匹配算法(匹配项:检修票中检修设备和线路、开关、母线表中的D5000命名和调度命名的匹配,要求对线路、开关、母线表中其他维度项可做关联匹配,如开关表中的电压等级、开关编号列)。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种电力设备名称识别方法,该方法提高了匹配的准确率和效率,节省了时间。
本发明的目的是通过以下技术方案实现的:
一种电力设备名称识别方法,包括以下步骤:
(1)构建电网专业词库用于存储词汇;包括直接添加单个词汇、直接添加两个以上词汇、筛选添加词汇;
(2)实现分词,将专业词库生成为三叉搜索树,利用数字搜索树和二叉搜索树结合实现快速分词;得到字符串数组或字符串列表;
(3)将待识别设备名称和标准设备名称按照步骤(2)分成字符串数组或字符串列表,并提取其中可能符合所属地、电压等级的特征词;
(4)根据特征词筛选标准设备名称数据库;过滤数据以缩短计算时间;将待识别设备名称和标准设备名称分词后得到的两个字符串数组进行相似度计算,得到一个0-1之间的相似度值,通过设定阈值判断符合条件的字符串,选取相应的数据条目;实现设备相识度识别。
进一步的,步骤(1)中直接添加单个词汇是用于专有词汇的添加;直接添加两个以上词汇是将电力设备中的某一关键属性栏直接添加进词库当中;筛选添加词汇用于直接将设备的名称进行现有的词库分词后,将目前不存在于词库中的词汇添加进词库当中。
进一步的,分词操作是使用最长字符串匹配法,将所给的字符串根据词库中记载的词汇或同义词完全分割开来,并选择去除其中的无匹配字符子串或将无匹配字符子串保留在词库中;分词后将会得到一组字符串数组或者字符串列表用于之后的相似度计算。
与现有技术相比,本发明的技术方案所带来的有益效果是:本发明通过查询词库的方式来实现电力设备名称的语义识别,从给出的电力设备的规范以及不规范的名称中查找出最为相似的多个电力设备,之后进行人工筛选或自动选取,提高匹配的准确率。
附图说明
图1是本发明方法的流程示意图。
图2是标准设备名称数据库的E-R图。
图3是具体实施例中识别过程的示意图。
具体实施方式
下面结合附图对本发明作进一步的描述。
本发明提出一种电力设备名称识别方法,具体如下:
首先,构建电网专业词库。可以通过多种方式来建立和扩充电力设备词库:单个词汇直接添加,一般是用于某些专有词汇,例如变电站、国家电网等,可以直接添加进词库中。多个词汇直接添加,一般是将设备中的某一关键属性栏,如一级地名、二级地名等,直接添加进词库当中。多个词汇筛选添加,一般用于直接将设备的名称进行现有的词库分词后,将目前不存在于词库中的词汇添加进词库当中。该功能必须提前设置好词库和分词树,是基于前后功能的综合型功能。添加词汇时,会自动识别出目前词库中已有的词汇,不会进行重复添加;可以通过人工筛选的方式,修改或删除词库中的词汇。同时,也可以使用人工维护的方式,添加同义词词库。
其次,实现分词,将词库生成为三叉搜索树,利用数字搜索树和二叉搜索树结合的优点实现快速分词。建立词库节点树。将词库中的所有词汇存在一颗三叉树中,便于之后的分词算法。分词操作。通过之前建立的词库节点三叉树,使用最长字符串匹配法,将所给的字符串根据词库中记载的词汇或者同义词完全分割开来,并可以选择去除其中的无匹配字符子串或者将无匹配字符子串根据情况保留在词库中。分词后将会得到一组字符串数组(或者字符串列表)用于之后的相似度计算。
最后,基于分词功能的字符串相似度比对计算。相似度比对计算是基于以下多个功能分布进行:读取标准设备名称数据库。将设备的相关信息,如设备名称、电压等级、所属地等读入内存。对目标字符串即待识别的设备名称进行分词。分词作为单独算法,只要将设备名称输入算法中就会分词得到字符串数组;将待识别的设备名称按照2所示步骤分成字符串数组,并提取其中可能符合所属地、电压等级的特征词(如唐山、220kV等)。根据特征词筛选标准设备名称数据库。从上一步中筛选出特征词,过滤数据以缩短之后的计算时间。将待识别设备名称和标准设备名称分词后得到的两个字符串数组进行相似度计算。会计算出一个0-1之间的相似度值,可自己选择阈值来判断符合条件的标准设备名称,选取相应的数据条目,从而实现设备相识度识别。即通过输入设备名就可匹配到相应的设备名。
如图1所示,按上述方法具体操作时首先将目标设备名称输入,进行分词,同时通过筛选标准设备名称数据库对得到的数据进行分词,如图2所示是标准设备名称数据库的E-R图,所包含数据有开关、母线、线路等。如图3所示,输入“新集/10kV.581开关”的待识别设备名称,经过分词后得到关键字‘开关’,通过这个词语在标准名称数据库中筛选出包含‘开关’关键字的565个标准设备名称,然后在对筛选出来的标准设备名称分词,这样不用对所有标准设备名称进行分词,可以节省时间;
之后计算相似度,通过相似度计算方法计算待识别设备名称和标准设备名称的相似度。
通过上述计算后获得565个相似度值,通过设定阈值来判断选取合适的标准设备名称,最终从5个中选出最合适的标准设备名称。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (3)

1.一种电力设备名称识别方法,其特征在于,包括以下步骤:
(1)构建电网专业词库用于存储词汇;包括直接添加单个词汇、直接添加两个以上词汇、筛选添加词汇;
(2)实现分词,将专业词库生成为三叉搜索树,利用数字搜索树和二叉搜索树结合实现快速分词;得到字符串数组或字符串列表;
(3)将待识别设备名称和标准设备名称按照步骤(2)分成字符串数组或字符串列表,并提取其中可能符合所属地、电压等级的特征词;
(4)根据特征词筛选标准设备名称数据库;过滤数据以缩短计算时间;将待识别设备名称和标准设备名称分词后得到的两个字符串数组进行相似度计算,得到一个0-1之间的相似度值,通过设定阈值判断符合条件的字符串,选取相应的数据条目;实现设备相识度识别。
2.根据权利要求1所述一种电力设备名称识别方法,其特征在于,步骤(1)中直接添加单个词汇是用于专有词汇的添加;直接添加两个以上词汇是将电力设备中的某一关键属性栏直接添加进词库当中;筛选添加词汇用于直接将设备的名称进行现有的词库分词后,将目前不存在于词库中的词汇添加进词库当中。
3.根据权利要求1所述一种电力设备名称识别方法,其特征在于,分词操作是使用最长字符串匹配法,将所给的字符串根据词库中记载的词汇或同义词完全分割开来,并选择去除其中的无匹配字符子串或将无匹配字符子串保留在词库中;分词后将会得到一组字符串数组或者字符串列表用于之后的相似度计算。
CN201811535713.2A 2018-12-14 2018-12-14 一种电力设备名称识别方法 Pending CN109800416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811535713.2A CN109800416A (zh) 2018-12-14 2018-12-14 一种电力设备名称识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811535713.2A CN109800416A (zh) 2018-12-14 2018-12-14 一种电力设备名称识别方法

Publications (1)

Publication Number Publication Date
CN109800416A true CN109800416A (zh) 2019-05-24

Family

ID=66556783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811535713.2A Pending CN109800416A (zh) 2018-12-14 2018-12-14 一种电力设备名称识别方法

Country Status (1)

Country Link
CN (1) CN109800416A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866397A (zh) * 2019-11-14 2020-03-06 国网冀北电力有限公司 一种基于Ternary Search Trie的电力设备模型特征匹配方法
CN111366816A (zh) * 2020-04-26 2020-07-03 华北电力大学 一种基于机器学习的电网故障诊断方法
CN113065352A (zh) * 2020-06-29 2021-07-02 国网浙江省电力有限公司杭州供电公司 一种电网调度工作文本的操作内容识别方法
CN113128216A (zh) * 2019-12-31 2021-07-16 中国移动通信集团贵州有限公司 一种语言识别方法、系统及装置
CN113515585A (zh) * 2020-04-10 2021-10-19 中国石油化工股份有限公司 危险化学品安全领域专业词库的构造方法、检索方法及系统
CN116521852A (zh) * 2023-06-26 2023-08-01 南京实创信息技术有限公司 一种基于深度学习的电力设备智能映射工具及映射方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955842A (zh) * 2012-09-18 2013-03-06 华东师范大学 一种多特征融合识别中文机构名的控制方法
CN104463708A (zh) * 2014-12-15 2015-03-25 广东电网有限责任公司电力科学研究院 一种电力设备缺陷快速定级方法
CN106649868A (zh) * 2016-12-30 2017-05-10 首都师范大学 问答匹配方法及装置
CN107992597A (zh) * 2017-12-13 2018-05-04 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
CN108428200A (zh) * 2018-03-16 2018-08-21 浙江大学城市学院 一种基于案例推理的电商领域专利侵权判定系统及判定方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955842A (zh) * 2012-09-18 2013-03-06 华东师范大学 一种多特征融合识别中文机构名的控制方法
CN104463708A (zh) * 2014-12-15 2015-03-25 广东电网有限责任公司电力科学研究院 一种电力设备缺陷快速定级方法
CN106649868A (zh) * 2016-12-30 2017-05-10 首都师范大学 问答匹配方法及装置
CN107992597A (zh) * 2017-12-13 2018-05-04 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
CN108428200A (zh) * 2018-03-16 2018-08-21 浙江大学城市学院 一种基于案例推理的电商领域专利侵权判定系统及判定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李蓉: "面向主题的搜索引擎的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
辛永: "基于条件随机场的设备主体名称识别", 《第二届智能电网会议论文集》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866397A (zh) * 2019-11-14 2020-03-06 国网冀北电力有限公司 一种基于Ternary Search Trie的电力设备模型特征匹配方法
CN113128216A (zh) * 2019-12-31 2021-07-16 中国移动通信集团贵州有限公司 一种语言识别方法、系统及装置
CN113515585A (zh) * 2020-04-10 2021-10-19 中国石油化工股份有限公司 危险化学品安全领域专业词库的构造方法、检索方法及系统
CN111366816A (zh) * 2020-04-26 2020-07-03 华北电力大学 一种基于机器学习的电网故障诊断方法
CN111366816B (zh) * 2020-04-26 2021-04-13 华北电力大学 一种基于机器学习的电网故障诊断方法
CN113065352A (zh) * 2020-06-29 2021-07-02 国网浙江省电力有限公司杭州供电公司 一种电网调度工作文本的操作内容识别方法
CN113065352B (zh) * 2020-06-29 2022-07-19 国网浙江省电力有限公司杭州供电公司 一种电网调度工作文本的操作内容识别方法
CN116521852A (zh) * 2023-06-26 2023-08-01 南京实创信息技术有限公司 一种基于深度学习的电力设备智能映射工具及映射方法
CN116521852B (zh) * 2023-06-26 2023-09-19 南京实创信息技术有限公司 一种基于深度学习的电力设备智能映射装置及映射方法

Similar Documents

Publication Publication Date Title
CN109800416A (zh) 一种电力设备名称识别方法
CN104239513B (zh) 一种面向领域数据的语义检索方法
CN108520002A (zh) 数据处理方法、服务器及计算机存储介质
CN106447346A (zh) 一种智能电力客服系统的构建方法及系统
CN103593371A (zh) 推荐搜索关键词的方法和装置
CN103530321A (zh) 一种基于机器学习的排序系统
CN106250393B (zh) 一种基于知识图谱的短文本理解方法及装置
CN104331446A (zh) 一种基于内存映射的海量数据预处理方法
CN107562726A (zh) 一种基于热词的供电服务搜索引擎
CN104615734B (zh) 一种社区管理服务大数据处理系统及其处理方法
CN105045927A (zh) 建设工程工料机数据自动编码方法及系统
CN105335510A (zh) 文本数据高效搜索方法
CN110555138B (zh) 一种云计算架构下的混合云存储方法
CN111177323A (zh) 基于人工智能的停电计划非结构化数据提取与识别方法
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN103365960A (zh) 电力多级调度管理结构化数据的离线搜索方法
CN113342949A (zh) 智库专家与待研究课题的匹配方法及系统
CN103377216A (zh) 产品信息库的构建方法及系统
CN103955519A (zh) 一种台账查询记录系统及其查询记录方法
CN110515926A (zh) 基于分词和语义依存分析的异构数据源海量数据梳理方法
CN104572730A (zh) 数字资源导入、导出方法及装置
CN106844539A (zh) 实时数据分析方法及系统
CN111078683A (zh) 一种基于插值查找的电网台账数据填充与统计方法及装置
CN111221967A (zh) 一种基于区块链架构的语言数据分类存储系统
CN110866397A (zh) 一种基于Ternary Search Trie的电力设备模型特征匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524