CN113010695A - 一种适用于继电保护装置缺陷分析的专业词典构建方法 - Google Patents
一种适用于继电保护装置缺陷分析的专业词典构建方法 Download PDFInfo
- Publication number
- CN113010695A CN113010695A CN202110418922.4A CN202110418922A CN113010695A CN 113010695 A CN113010695 A CN 113010695A CN 202110418922 A CN202110418922 A CN 202110418922A CN 113010695 A CN113010695 A CN 113010695A
- Authority
- CN
- China
- Prior art keywords
- defect
- relay protection
- word segmentation
- records
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。首先,对缺陷记录进行清洗,删除重复记除、空白记录等无意义记录,之后按照缺陷等级将缺陷文本分为危急、严重、一般三部分,分别进行分词处理。其次,基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等。随后,经过基于jieba分词和人工修正的两次分词过程,获得质量更高的专业词典。最后,依靠人工识别并存储的方式实现同义词的合并。上述方法一方面考虑了继电保护装置实际运维中缺陷记录的主要属性,另一方面根据继保专业语料对分词结果中专业词汇进行修正,修正结果提升了机器分词的准确性和专业性,所得分词结果为文本挖掘技术在缺陷分析中的应用提供了基础。
Description
技术领域
本发明涉及继电保护技术领域,尤其涉及一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。
背景技术
继电保护系统是电力系统安全、稳定运行的第一道防线,继电保护系统能否正确动作,各类继电保护装置的缺陷管理工作十分关键和重要。继电保护的四项基本要求中快速性、选择性和灵敏性可通过整定计算得以保障,但可靠性与保护装置本身的缺陷情况息息相关,即使动作定值、时间整定和设备配套方案设置合理,装置自身缺陷所引起的二次系统功能缺失会使电网安全稳定运行失去保障,从而导致故障范围扩大、负荷大面积损失、设备损坏、人身伤亡等不利情况。
目前,继电保护行业已经积累了大量的继电保护装置缺陷信息数据。随着缺陷数据量的增长,传统数据分析方法开始向机器学习算法过渡,这为缺陷数据的分析提供了新的思路。值得注意的是,传统数据分析应用均基于现场人员填写好的规范数据开展,忽略了缺陷数据根本上是一种非规范的文本型数据。因此,借助自然语言处理算法的文本挖掘技术值得尝试。但是,文本挖掘技术特殊性在于其对专业领域词典依赖性很高,因此,建立适用于继保装置缺陷分析的专业词典具有较强的实际意义。
发明内容
本发明的目的是提供一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。该方法能较好地实现对缺陷文本记录分词并修正从而建立专业词典的目标,为基于文本挖掘技术开展缺陷定级或缺陷信息抽取提供基础。
本发明的目的是通过以下技术方案实现的:
一种适用于继电保护装置缺陷分析的专业词典构建方法,所述方法包括:
步骤1、继电保护缺陷记录文本数据预处理。
步骤2、继电保护缺陷记录停用词表构建。
步骤3、继电保护缺陷记录文本分词。
步骤4、继电保护缺陷记录同义词合并。
所述步骤1中,文本数据预处理包括文本数据清洗,删除重复缺陷记录、空白缺陷记录等无意义数据,按照缺陷等级将缺陷文本分为危急、严重、一般三部分,分别进行分词处理。
所述步骤2中,停用词表构建包括基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等。
所述步骤3中,文本数据分词共涉及两次分词,初次粗分词利用jieba分词,然后进行人工修正并对停用词进行补充完善,之后基于该次结果进行二次分词,获得质量更高的专业词典。
所述步骤4中,同义词合并主要基于人工识别并存储。
由上述本发明提供的技术方案可以看出,上述方法一方面考虑了继电保护装置实际运维中缺陷记录的主要属性,另一方面根据继电保护专业语料对分词结果中专业词汇进行修正,修正结果提升了机器分词的准确性和专业性,所得分词结果为文本挖掘技术在缺陷分析中的应用提供了基础。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显然,下面描述中的附图仅是本发明的部分实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例所述的继电保护装置缺陷分析专业词典构建方法的流程示意图;
图2为本发明实施例所述的停用词表构建所采用的正则表达式方法流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
显然,所描述的实施例仅为本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
步骤1、继电保护缺陷记录文本数据预处理。
首先,对缺陷文本数据进行清洗,删除重复缺陷记录、空白缺陷记录等无意义数据;然后,按照缺陷等级将缺陷文本分为危急、严重、一般三部分,分别进行分词处理。
重复缺陷记录剔除、空白缺陷记录删除及按照缺陷等级的缺陷文本划分通过excel软件筛选完成;之后将三组文本转换为txt格式文档存储以备调用。
步骤2、继电保护缺陷记录停用词表构建。
基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等。
具体的,停用词提取分别有如下几类:
(1)厂站名、线路名:属于专有名词,需要将其准确的从分词文本中识别出来,否则可能会影响其他正常词汇的准确切分。厂站名和线路名集合提取自缺陷数据中的厂站名称和一次设备名称。运用正则表达式的方法,去除其中的电压等级,将记录中的变电站和发电厂区分开,从中提取出所需的厂站名集合。
(2)设备型号:缺陷记录中如LCS5678H、NSR3111F、PCS-222EA-G、CSC101B等保护型号,每个型号在文本记录中出现次数太少,对于文本分析意义不大;由于人工记录,存在不同的书写格式,不易识别;出现的型号本身不一定完整,甚至存在记录错误。因此,对于在文本记录中出现的保护型号,只从中提取“CSC”、“PSL”等表明发生故障的装置所属的序列。
(3)人名:人名因为占比很少,目前采用人工识别的方式,同时考虑获取运维人员名单并导入以进行正则化抽取。
停用词表借助正则表达式方法构建,基于正则表达式匹配某些特定数据。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同。使用正则表达式进行匹配的流程如附图2所示。
正则表达式的匹配过程是:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。正则表达式可以用来匹配多种数据形式:字符组、匹配多个单词、区间、特殊字符、匹配目标数据、取反、匹配空白、单词边界、开始结束、可选的任意字符、重复区间及开闭区间。
步骤3、继电保护缺陷记录文本分词。
继电保护缺陷文本记录数据分词共涉及两次分词,初次粗分词利用jieba分词,然后进行人工修正并对停用词进行补充完善,之后基于该次结果进行二次分词,获得质量更高的专业词典,提升分词结果的准确性。
在该步骤3中,主要的分词约束包含以下内容:
①对于出现的厂站,将具体名称替换为“变电站”、“发电厂”或“风电场”,出现的线路,将具体名称替换为“线路”,从而降低文本语料的特征空间维数,并且体现缺陷发生的地点属性;
②专属实体名合并,例如故障/录波器、CPU/插件、重合/闸等;
③不切分出单字实词,例如光电/口、接线/头等,当作短语处理;
④必要的虚词前后缀(尤其否定前缀),例如无/异常、不/影响等;
⑤出现数字后,先判断其后一个词是否为有意义的时间、电流、电压等计量单位。若是,则保留;若不是,考虑直接删除。
步骤4、继电保护缺陷记录同义词合并。
同义词合并主要基于人工识别并存储。目前继电保护装置缺陷处理中的近义词汇较少,如“主变”和“主变压器”,多通过人工添加进行筛选。
下面再以具体的实例对上述缺陷数据修正方法进行论证与说明:
以2016-2018年全国继电保护装置缺陷管理日志为样本,构建适用于缺陷诊断的专业文本词典,所得停用词表结果如下:
表1停用词表结果
基于停用词表,对缺陷日志短文本进行分词,所得结果举例如下表所示:
表2文本分词结果举例
上述分词结果表明,所使用的文本分词方法能够良好地对缺陷文本进行分词,一方面保留了继电保护相关专业术语词汇,另一方面对停用词表中的内容进行了有效滤除。基于该词典可以有效构建缺陷文本向量空间,并借助相关机器学习算法对缺陷文本进行分类。
综上,本发明所述的综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法可行,且具有工程应用价值。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (4)
1.一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,所述方法包括:
步骤1、继电保护缺陷记录文本数据预处理;
步骤2、继电保护缺陷记录停用词表构建;
步骤3、继电保护缺陷记录文本分词;
步骤4、继电保护缺陷记录同义词合并。
2.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤1中,文本数据预处理包括文本数据清洗和缺陷文本划分:
文本数据清洗包括删除重复缺陷记录、空白缺陷记录等无意义数据,缺陷文本划分需按照缺陷等级将缺陷文本分为危急、严重、一般三部分,并将三组文本转换为txt格式存储用于后续分词处理。
3.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤2中,停用词表构建包括基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等,具体地:
1)厂站名和线路名集合缺陷数据中的厂站名称和一次设备名称中提取,运用正则表达式的方法,去除其中的电压等级,将记录中的变电站和发电厂区分开,从中提取出所需的厂站名集合;
2)对于在文本记录中出现的保护型号,只从中提取“CSC”、“PSL”等表明发生故障的装置所属的序列;
3)采用人工识别的方式建立人名列表。
4.根据权利要求1所述一种适用于继电保护装置缺陷分析的专业词典构建方法,其特征在于,在所述步骤3中,文本数据分词经过两次分词,初次粗分词利用jieba分词,然后进行人工修正并对停用词进行补充完善,之后基于该次结果进行二次分词,获得质量更高的专业词典,其中,人工修正过程建立了相关的分词约束,具体如下:
1)对于出现的厂站,将具体名称替换为“变电站”、“发电厂”或“风电场”,出现的线路,将具体名称替换为“线路”,从而降低文本语料的特征空间维数,并且体现缺陷发生的地点属性;
2)专属实体名合并,例如故障/录波器、CPU/插件、重合/闸等;
3)不切分单字实词,例如光电/口、接线/头等,当作短语处理;
4)必要的虚词前后缀(尤其否定前缀),例如无/异常、不/影响等;
5)出现数字后,先判断其后一个词是否为有意义的时间、电流、电压等计量单位,若是,则保留;若不是,考虑直接删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110418922.4A CN113010695A (zh) | 2021-04-19 | 2021-04-19 | 一种适用于继电保护装置缺陷分析的专业词典构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110418922.4A CN113010695A (zh) | 2021-04-19 | 2021-04-19 | 一种适用于继电保护装置缺陷分析的专业词典构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113010695A true CN113010695A (zh) | 2021-06-22 |
Family
ID=76388782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110418922.4A Pending CN113010695A (zh) | 2021-04-19 | 2021-04-19 | 一种适用于继电保护装置缺陷分析的专业词典构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010695A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386407A (zh) * | 2021-12-23 | 2022-04-22 | 北京金堤科技有限公司 | 文本的分词方法及装置 |
CN115952796A (zh) * | 2023-03-14 | 2023-04-11 | 华北电力科学研究院有限责任公司 | 电力设备故障分析方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426539A (zh) * | 2015-12-23 | 2016-03-23 | 成都电科心通捷信科技有限公司 | 一种基于词典的lucene中文分词方法 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN109740164A (zh) * | 2019-01-09 | 2019-05-10 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
CN110502644A (zh) * | 2019-08-28 | 2019-11-26 | 同方知网(北京)技术有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
CN110991184A (zh) * | 2019-12-10 | 2020-04-10 | 国网青海省电力公司 | 一种基于综合字典特性的继电保护定值自适应校核方法 |
-
2021
- 2021-04-19 CN CN202110418922.4A patent/CN113010695A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426539A (zh) * | 2015-12-23 | 2016-03-23 | 成都电科心通捷信科技有限公司 | 一种基于词典的lucene中文分词方法 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN109740164A (zh) * | 2019-01-09 | 2019-05-10 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
CN110502644A (zh) * | 2019-08-28 | 2019-11-26 | 同方知网(北京)技术有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
CN110991184A (zh) * | 2019-12-10 | 2020-04-10 | 国网青海省电力公司 | 一种基于综合字典特性的继电保护定值自适应校核方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386407A (zh) * | 2021-12-23 | 2022-04-22 | 北京金堤科技有限公司 | 文本的分词方法及装置 |
CN115952796A (zh) * | 2023-03-14 | 2023-04-11 | 华北电力科学研究院有限责任公司 | 电力设备故障分析方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111966076B (zh) | 基于有限状态机和图神经网络的故障定位方法 | |
CN110377901B (zh) | 一种针对配电线路跳闸填报案例的文本挖掘方法 | |
CN111435366A (zh) | 设备故障诊断方法、装置和电子设备 | |
WO2022052181A1 (zh) | 一种基于零样本学习的绝缘子缺陷检测方法及系统 | |
CN112905804B (zh) | 一种电网调度知识图谱的动态更新方法及装置 | |
CN111274814B (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN113010695A (zh) | 一种适用于继电保护装置缺陷分析的专业词典构建方法 | |
CN113094512B (zh) | 一种工业生产制造中故障分析系统及方法 | |
CN110704638A (zh) | 一种基于聚类算法的电力文本词典构造方法 | |
Yang et al. | Log file anomaly detection | |
CN113065580A (zh) | 一种基于多信息融合的电厂设备管理方法及系统 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN113918723A (zh) | 一种设备信息的分类方法及装置 | |
CN115099232A (zh) | 一种调度规程和历史数据的电网操作知识模型构建方法 | |
CN110321425B (zh) | 一种电网缺陷类型的判断方法及装置 | |
CN114881130A (zh) | 一种基于Bagging模型的继电保护缺陷文本定级方法 | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 | |
US20220207239A1 (en) | Utterance pair acquisition apparatus, utterance pair acquisition method, and program | |
Zhang et al. | Chinese named entity recognition of transformer bushing fault based on BiLSTM-CRF | |
CN115687334B (zh) | 数据质检方法、装置、设备及存储介质 | |
CN113312319B (zh) | 一种移动互联网共享文档查重预警系统及方法 | |
CN113111189B (zh) | 可解释性电网作业风险评估方法与装置 | |
CN113343051B (zh) | 一种异常sql检测模型构建方法及检测方法 | |
CN118114663A (zh) | 一种电力故障领域实体自动抽取方法、系统、设备及介质 | |
Zhang et al. | Design of Intelligent Auxiliary Input System for Distribution Equipment Defects Based on HMM and Word2vec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210622 |