CN108664538B - 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 - Google Patents

一种输变电设备疑似家族性缺陷的自动辨识方法及系统 Download PDF

Info

Publication number
CN108664538B
CN108664538B CN201711233045.3A CN201711233045A CN108664538B CN 108664538 B CN108664538 B CN 108664538B CN 201711233045 A CN201711233045 A CN 201711233045A CN 108664538 B CN108664538 B CN 108664538B
Authority
CN
China
Prior art keywords
equipment
defect
defect information
word frequency
power transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711233045.3A
Other languages
English (en)
Other versions
CN108664538A (zh
Inventor
郑晓崑
周爱华
胡斌
梁潇
陈其鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
Original Assignee
QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co, State Grid Corp of China SGCC, Global Energy Interconnection Research Institute filed Critical QINGDAO POWER SUPPLY Co OF STATE GRID SHANDONG ELECTRIC POWER Co
Priority to CN201711233045.3A priority Critical patent/CN108664538B/zh
Publication of CN108664538A publication Critical patent/CN108664538A/zh
Application granted granted Critical
Publication of CN108664538B publication Critical patent/CN108664538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种输变电设备疑似家族性缺陷的自动辨识方法及系统,包括:采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;基于不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。本发明对输变电设备缺陷信息进行聚类,并根据分组统计结果自动辨识疑似家族性缺陷设备,大大削减了人力和时间等成本。

Description

一种输变电设备疑似家族性缺陷的自动辨识方法及系统
技术领域
本发明涉及文本挖掘技术领域,具体涉及一种输变电设备疑似家族性缺陷的自动辨识方法及系统。
背景技术
输变电设备安全可靠的运行是电网安全运行的基础,因此,如果输变电设备存在缺陷,则电网的运行将会存在安全隐患,尤其是同一生产厂家由于相同工艺、相同材料、相同设计理念和思路造成的设备缺陷将对电网的安全稳定运行造成较大的隐患。
目前,输变电设备家族性缺陷来源主要包括:有关设备的家族事故通报、设备反措、设备家族性缺陷、制造厂通报的家族性缺陷。
家族性缺陷管理程序包括:①各运行公司上报疑似家族性缺陷;②调查统计分析;③界定并提出处理意见;④家族性缺陷信息及反措要求;⑤家族性缺陷设备汇总及相关家族性缺陷处理;⑥上报的处理结果。
针对家族性缺陷的认定主要通过专业人员通过对设备进行试验、解体分析,周期较长,不利于家族性缺陷的认定工作。因此,需要提供一种技术方案来满足现有的技术需要。
发明内容
针对现有技术的不足,本发明提出了一种输变电设备疑似家族性缺陷的自动辨识方法及系统。
一种输变电设备疑似家族性缺陷的自动辨识方法,其包括:采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;基于不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。
采集到的输变电设备数据包括:输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。
采集输变电设备数据,对输变电设备缺陷信息进行文本分析,包括:利用采集到的输变电设备的缺陷记录和输变电设备的身份标识,对输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,疑似家族性缺陷分析宽表每行对应一个缺陷内容;基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。
基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表,包括:根据疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;对自定义词典、同义词词典和停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。
基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵,包括:基于设备缺陷信息词频统计表,按下式分别计算词频(TF)和逆文档词频(IDF);
Figure BDA0001488493480000021
Figure BDA0001488493480000022
将词频(TF)*逆文档词频(IDF)得到的值TF-IDF,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;
其中所述设备缺陷信息特征词频矩阵的行对应缺陷内容,所述列对应特征词。
基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性,包括:基于设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:
Figure BDA0001488493480000023
其中,A和B分别为设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;Ai和Bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。
基于不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备,包括:基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;基于聚类结果,确定每一类的缺陷内容特征词并根据所述缺陷内容特征词生成对应的标签;对输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。
一种输变电设备疑似家族性缺陷的自动辨识系统,包括:设备缺陷信息特征词频矩阵模块,用于采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;相似性计算模块,用于基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;疑似家族性缺陷设备辨识模块,用于基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。
采集到的输变电设备数据包括:输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。
设备缺陷信息特征词频矩阵模块,包括:疑似家族性缺陷分析宽表子模块、设备缺陷信息词频统计表子模块和设备缺陷信息特征词频矩阵子模块;疑似家族性缺陷分析宽表子模块,用于利用采集到的输变电设备的缺陷记录和输变电设备的身份标识,对输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,所述疑似家族性缺陷分析宽表每行对应一个缺陷内容;设备缺陷信息词频统计表子模块,用于基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;设备缺陷信息特征词频矩阵子模块,用于基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。
设备缺陷信息词频统计表子模块,包括:词典定义单元和统计表单元;词典定义单元,用于根据疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;统计表单元,用于对自定义词典、同义词词典和停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。
设备缺陷信息特征词频矩阵子模块,包括:计算单元和特征词提取单元;计算单元,用于基于设备缺陷信息词频统计表,按下式分别计算词频(TF)和逆文档词频(IDF);
Figure BDA0001488493480000041
Figure BDA0001488493480000042
特征词提取单元,用于将词频(TF)*逆文档词频(IDF)得到的值TF-IDF,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;其中,设备缺陷信息特征词频矩阵的行对应缺陷内容,列对应特征词。
相似性计算模块,进一步用于:基于设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:
Figure BDA0001488493480000043
其中,A和B分别为设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;Ai和Bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。
疑似家族性缺陷设备辨识模块,包括:聚类算法子模块、标签确定子模块和缺陷定义子模块;聚类算法子模块,用于基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;标签确定子模块,用于基于聚类结果,确定每一类的缺陷内容特征词并根据缺陷内容特征词生成对应的标签;缺陷定义子模块,用于对输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。
与最接近的现有技术比,本发明具有如下有益效果:
1、本发明对输变电设备缺陷信息进行聚类,并根据分组统计结果自动辨识疑似家族性缺陷设备,大大削减了人力和时间等成本。
2、本发明所采用算法避免了用户过多的参数设置上的参与,保证了结果的高复制性,如所采用聚类算法无需设置类的个数,而是算法自动选择最优的类的数量。
附图说明
图1是本发明方法的流程图;
图2是本发明的具体设计流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
如图1所示,本发明的输变电设备疑似家族性缺陷分析模型,通过收集设备缺陷情况,采用文本挖掘技术,对输变电设备缺陷信息进行文本分析,并提取输变电设备缺陷信息特征词,进行文本相似性计算及文本凝聚层次聚类,分析同一生产厂家生产的同一类型、同一型号、同一缺陷部位的同一缺陷,实现输变电设备疑似家族性缺陷的自动辨识。
为有效的使用该方法,需要保证本发明具备完整的设备缺陷记录、设备生产厂家信息、设备台账信息和设备分类信息等。
如图2所示,本发明包括以下六个步骤:
步骤一:抽取设备缺陷记录、设备生产厂家信息、设备台账信息、设备分类信息等数据,进行关联合并,形成输变电设备疑似家族性缺陷分析宽表
从PMS 2.0系统(设备运维精益管理系统)中抽取设备缺陷记录、设备生产升价信息、设备台账信息、设备分类信息等数据,以设备的ID为标识,进行关联合并,形成宽表,此表每一行所包含的内容称为一条“缺陷内容”。
步骤二:定义设备缺陷分析自定义词典、同义词词典、停用词词典,并进行设备缺陷信息文本分词,同时,根据文本分词的结果,完善优化自定义词典、同义词词典和停用词词典
根据合并后的输变电设备缺陷信息宽表,分别定义自定义词典、同义词词典和停用词词典。在构建自定义词典、停用词词典、同义词词典对缺陷内容信息进行同义词转换操作和词的停用,进行文本分词,并对分词词汇进行词性标注(名词/动词/副词)。
1、定义自定义词典
依据专业标准进行专业词汇定义,形成自定义词典。在进行文本分词过程中加载自定义词典,提升设备缺陷信息文本分词效果。定义的自定义词,例如:“隔离开关”和“热耦继电器”等专业词汇。
2、定义同义词词典
依据“设备缺陷信息”进行同义词定义、合并,形成同义词词典,在进行文本分词过程中加载同义词词典,解决设备缺陷信息录入过程中由于录入人员环境差异、用语习惯等原因造成的设备缺陷信息描述不规范的问题,例如:将“不正确”、“不准确”、“不一致”等词汇统一定义为“不正确”。
3、停用词词典定义
依据“设备缺陷信息”,定义与设备缺陷无关的相关词汇,形成停用词词典,以便在文本分词的过程中摒弃该部分词汇,例如:“的”、“与”、“三星变电站”等与设备本体缺陷无关的词汇。
加载自定义词典、同义词词典、停用词词典,并进行设备缺陷信息进行文本分词分析,即扫描字符串,如发现字符串的子串和上述字典以及词库中的词相同,就算匹配成功并将词分出,这里使用的词库为已经向外公开的中文词库;与此同时,形成设备缺陷信息词频统计表。
步骤三:结合设备缺陷分词结果,利用TF-IDF算法提取输变电设备缺陷信息特征词,形成设备缺陷信息特征词频矩阵
设备缺陷信息特征词频矩阵中每一行对应一条缺陷内容,而每一列则对应了这组缺陷内容的一个特征词,其中一个元素为1或0分别表示某一缺陷内容是否含有某一特征词。
针对每一条缺陷内容,根据设备缺陷信息分词结果,进行设备缺陷信息特征词提取,通过设备缺陷信息文本分词形成的词频表,计算具体词频(TF)和逆文档词频(IDF),并利用TF-IDF(TF×IDF)值,按照降序排列,衡量词的重要性,将排名在前的若干词(如前10)提取出来作为特征词。
Figure BDA0001488493480000071
Figure BDA0001488493480000072
TF-IDF=词频(TF)*逆文档词频(IDF) 公式(3)
将所有缺陷内容提取特征词以后,针对所有缺陷内容提取他们特征词的并集,为集合中每个特征词按照从1到M依次进行编号,其中M为集合中元素的数量,集合中的每个特征词可随机编号,不过需保证每个特征词具有唯一并且不与其它特征词重复的编号。
针对一条缺陷内容,首先将其缺陷内容特征词向量赋值为全零的长度为M的向量,然后将其所包含特征词编号所对应的位置的0改为1。
步骤四:针对输变电设备缺陷信息特征词频矩阵,利用余弦相似性算法,计算词频向量矩阵之间的相关性,实现不同的输变电设备缺陷信息之间相似性的计算
基于文本挖掘生成的特征词生成词频向量矩阵,计算各词向量的余弦值,利用词向量的余弦值计算设备缺陷信息的相似性,参见公式(4)所列。
Figure BDA0001488493480000073
如上述公式所列,cosθ值越接近1,表明夹角越接近0度,也就是两个向量越相似,A和B分别为设备缺陷信息特征词频矩阵中的两行缺陷内容特征词向量,每个向量的每个元素为二进制,而Ai及Bi则指每个向量中具体的第i个元素。
由于余弦的这种计算方法对n维向量也成立,因此可以将余弦相似性算法应用于计算设备信息缺陷的相似性,下面对缺陷内容特征词向量的获取进行简要说明:
步骤五:依据不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法,实现输变电设备缺陷信息的聚类分析,对输变电设备缺陷信息打标签。
根据文本相似性计算结果,利用凝聚层次聚类算法实现对“缺陷内容”的聚类,分析每一类所包含的主要特征词并根据这些特征词为这一类产生对应标签,如“断路器-门锁-损坏”和“断路器-SF6-气体-漏气”等。
步骤六:通过对设备生产厂家、设备类型、设备型号、缺陷部位和设备缺陷标签等维度进行分组统计,将数量大于或等于5个的设备本体缺陷定义为设备疑似家族性缺陷,实现对输变电设备疑似家族性缺陷的自动快速辨识。
基于同一发明构思,本发明还提供了一种输变电设备疑似家族性缺陷的自动辨识系统,下面进行说明。
本发明提供的系统包括:设备缺陷信息特征词频矩阵模块,用于采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;相似性计算模块,用于基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;疑似家族性缺陷设备辨识模块,用于基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。
采集到的输变电设备数据包括:输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。
设备缺陷信息特征词频矩阵模块,包括:疑似家族性缺陷分析宽表子模块、设备缺陷信息词频统计表子模块和设备缺陷信息特征词频矩阵子模块;疑似家族性缺陷分析宽表子模块,用于利用采集到的输变电设备的缺陷记录和输变电设备的身份标识,对输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,所述疑似家族性缺陷分析宽表每行对应一个缺陷内容;设备缺陷信息词频统计表子模块,用于基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;设备缺陷信息特征词频矩阵子模块,用于基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。
设备缺陷信息词频统计表子模块,包括:词典定义单元和统计表单元;词典定义单元,用于根据疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;统计表单元,用于对自定义词典、同义词词典和停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。
设备缺陷信息特征词频矩阵子模块,包括:计算单元和特征词提取单元;计算单元,用于基于设备缺陷信息词频统计表,按下式分别计算词频(TF)和逆文档词频(IDF);
Figure BDA0001488493480000091
Figure BDA0001488493480000092
特征词提取单元,用于将词频(TF)*逆文档词频(IDF)得到的值TF-IDF,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;其中,设备缺陷信息特征词频矩阵的行对应缺陷内容,列对应特征词。
相似性计算模块,进一步用于:基于设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:
Figure BDA0001488493480000093
其中,A和B分别为设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;Ai和Bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。
疑似家族性缺陷设备辨识模块,包括:聚类算法子模块、标签确定子模块和缺陷定义子模块;聚类算法子模块,用于基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;标签确定子模块,用于基于聚类结果,确定每一类的缺陷内容特征词并根据缺陷内容特征词生成对应的标签;缺陷定义子模块,用于对输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (13)

1.一种输变电设备疑似家族性缺陷的自动辨识方法,其特征在于,包括:
采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;
基于所述设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;
基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备;
所述采集输变电设备数据,对输变电设备缺陷信息进行文本分析,包括:
利用所述采集到的输变电设备的缺陷记录和输变电设备的身份标识,对所述输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,所述疑似家族性缺陷分析宽表每行对应一个缺陷内容;
基于所述疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;
基于所述设备缺陷信息词频统计表,提取所述输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。
2.根据权利要求1所述的自动辨识方法,其特征在于,所述采集到的输变电设备数据包括:
所述输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。
3.根据权利要求1所述的自动辨识方法,其特征在于,所述基于所述疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表,包括:
根据所述疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;
对所述自定义词典、所述同义词词典和所述停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。
4.根据权利要求1所述的自动辨识方法,其特征在于,所述基于所述设备缺陷信息词频统计表,提取所述输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵,包括:
基于所述设备缺陷信息词频统计表,按下式分别计算词频(TF)和逆文档词频(IDF);
Figure FDA0003299547030000021
Figure FDA0003299547030000022
将词频(TF)*逆文档词频(IDF)得到的值TF-IDF,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;
其中所述设备缺陷信息特征词频矩阵的行对应缺陷内容,列对应特征词。
5.根据权利要求1所述的自动辨识方法,其特征在于,所述基于所述设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性,包括:
基于所述设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:
Figure FDA0003299547030000023
其中,A和B分别为所述设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;Ai和Bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。
6.根据权利要求1所述的自动辨识方法,其特征在于,所述基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备,包括:
基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;
基于聚类结果,确定每一类的缺陷内容特征词并根据所述缺陷内容特征词生成对应的标签;
对所述输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。
7.一种用于如权利要求1-6任一项所述输变电设备疑似家族性缺陷的自动辨识方法的自动辨识系统,其特征在于,包括:
设备缺陷信息特征词频矩阵模块,用于采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;
相似性计算模块,用于基于所述设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;
疑似家族性缺陷设备辨识模块,用于基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。
8.根据权利要求7所述的自动辨识系统,其特征在于,所述采集到的输变电设备数据包括:
所述输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。
9.根据权利要求7所述的自动辨识系统,其特征在于,所述设备缺陷信息特征词频矩阵模块,包括:疑似家族性缺陷分析宽表子模块、设备缺陷信息词频统计表子模块和设备缺陷信息特征词频矩阵子模块;
所述疑似家族性缺陷分析宽表子模块,用于利用所述采集到的输变电设备的缺陷记录和输变电设备的身份标识,对所述输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,所述疑似家族性缺陷分析宽表每行对应一个缺陷内容;
所述设备缺陷信息词频统计表子模块,用于基于所述疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;
所述设备缺陷信息特征词频矩阵子模块,用于基于所述设备缺陷信息词频统计表,提取所述输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。
10.根据权利要求9所述的自动辨识系统,其特征在于,所述设备缺陷信息词频统计表子模块,包括:词典定义单元和统计表单元;
所述词典定义单元,用于根据所述疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;
所述统计表单元,用于对所述自定义词典、所述同义词词典和所述停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。
11.根据权利要求9所述的自动辨识系统,其特征在于,所述设备缺陷信息特征词频矩阵子模块,包括:计算单元和特征词提取单元;
所述计算单元,用于基于所述设备缺陷信息词频统计表,按下式分别计算词频(TF)和逆文档词频(IDF);
Figure FDA0003299547030000041
Figure FDA0003299547030000042
所述特征词提取单元,用于将词频(TF)*逆文档词频(IDF)得到的值TF-IDF,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;
其中,所述设备缺陷信息特征词频矩阵的行对应缺陷内容,列对应特征词。
12.根据权利要求7所述的自动辨识系统,其特征在于,所述相似性计算模块,进一步用于:基于所述设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:
Figure FDA0003299547030000043
其中,A和B分别为所述设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;Ai和Bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。
13.根据权利要求7所述的自动辨识系统,其特征在于,
所述疑似家族性缺陷设备辨识模块,包括:聚类算法子模块、标签确定子模块和缺陷定义子模块;
所述聚类算法子模块,用于基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;
所述标签确定子模块,用于基于聚类结果,确定每一类的缺陷内容特征词并根据所述缺陷内容特征词生成对应的标签;
所述缺陷定义子模块,用于对所述输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。
CN201711233045.3A 2017-11-30 2017-11-30 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 Active CN108664538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711233045.3A CN108664538B (zh) 2017-11-30 2017-11-30 一种输变电设备疑似家族性缺陷的自动辨识方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711233045.3A CN108664538B (zh) 2017-11-30 2017-11-30 一种输变电设备疑似家族性缺陷的自动辨识方法及系统

Publications (2)

Publication Number Publication Date
CN108664538A CN108664538A (zh) 2018-10-16
CN108664538B true CN108664538B (zh) 2022-02-01

Family

ID=63785025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711233045.3A Active CN108664538B (zh) 2017-11-30 2017-11-30 一种输变电设备疑似家族性缺陷的自动辨识方法及系统

Country Status (1)

Country Link
CN (1) CN108664538B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754159B (zh) * 2018-12-07 2022-08-23 国网江苏省电力有限公司南京供电分公司 一种电网运行日志的信息提取方法及系统
CN109615266B (zh) * 2018-12-26 2022-11-04 贵州电网有限责任公司 基于数据挖掘的电网异常信息的文本分析决策方法
CN110321425B (zh) * 2019-07-11 2023-07-21 云南电网有限责任公司电力科学研究院 一种电网缺陷类型的判断方法及装置
CN110956447A (zh) * 2019-11-27 2020-04-03 云南电网有限责任公司电力科学研究院 确定疑似家族性缺陷的方法及其系统
CN112269779A (zh) * 2020-10-30 2021-01-26 国网上海市电力公司 一种用于电力设备缺陷的大数据分析系统和方法
CN113240133A (zh) * 2021-04-22 2021-08-10 国网安徽省电力有限公司 基于人工智能的继电保护设备家族性缺陷辨识方法
CN113553358B (zh) * 2021-07-27 2022-12-06 国网天津市电力公司电力科学研究院 一种基于数据挖掘的电网设备无效数据辨识方法及装置
CN115186778A (zh) * 2022-09-13 2022-10-14 福建省特种设备检验研究院 一种基于文本分析的承压类特种设备隐患识别方法及终端
CN115630161A (zh) * 2022-12-20 2023-01-20 航天神舟智慧系统技术有限公司 一种隐患大数据智能分析诊断方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004761A (zh) * 2007-01-10 2007-07-25 复旦大学 大规模文本逐次二分的层次聚类方法
CN102737350A (zh) * 2012-06-08 2012-10-17 南方电网科学研究院有限责任公司 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具
CN104809473A (zh) * 2015-04-30 2015-07-29 国网智能电网研究院 一种面向电力在线采集数据的分类方法
CN105677833A (zh) * 2016-01-06 2016-06-15 云南电网有限责任公司电力科学研究院 一种基于文本挖掘技术提取断路器故障特征信息的方法
CN106980922A (zh) * 2017-03-03 2017-07-25 国网天津市电力公司 一种基于大数据的输变电设备状态评价方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2574595C (en) * 2004-07-20 2013-07-02 Global Precision Solutions, Llp Precision gps driven utility asset management and utility damage prevention system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004761A (zh) * 2007-01-10 2007-07-25 复旦大学 大规模文本逐次二分的层次聚类方法
CN102737350A (zh) * 2012-06-08 2012-10-17 南方电网科学研究院有限责任公司 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具
CN104809473A (zh) * 2015-04-30 2015-07-29 国网智能电网研究院 一种面向电力在线采集数据的分类方法
CN105677833A (zh) * 2016-01-06 2016-06-15 云南电网有限责任公司电力科学研究院 一种基于文本挖掘技术提取断路器故障特征信息的方法
CN106980922A (zh) * 2017-03-03 2017-07-25 国网天津市电力公司 一种基于大数据的输变电设备状态评价方法

Also Published As

Publication number Publication date
CN108664538A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN108664538B (zh) 一种输变电设备疑似家族性缺陷的自动辨识方法及系统
WO2019227710A1 (zh) 网络舆情的分析方法、装置及计算机可读存储介质
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN107992490B (zh) 一种数据处理方法以及数据处理设备
US20160217142A1 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
CN107506389B (zh) 一种提取职位技能需求的方法和装置
CN109885768A (zh) 工单处理方法、装置及系统
CN107491536B (zh) 一种试题校验方法、试题校验装置及电子设备
US9270749B2 (en) Leveraging social media to assist in troubleshooting
US11288266B2 (en) Candidate projection enumeration based query response generation
CN113626607B (zh) 异常工单识别方法、装置、电子设备及可读存储介质
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN115146865A (zh) 基于人工智能的任务优化方法及相关设备
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN113111159A (zh) 问答记录生成方法、装置、电子设备及存储介质
CN115577701A (zh) 针对大数据安全的风险行为识别方法、装置、设备及介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN116522403A (zh) 聚焦大数据隐私安全的互动信息脱敏方法及服务器
CN115758183A (zh) 日志异常检测模型的训练方法及装置
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN116562304B (zh) 基于人工智能和多维语义理解的档案智能开放鉴定方法
CN117390933A (zh) 用于润滑油制备下的工艺数据追溯方法及系统
CN104408036A (zh) 关联话题的识别方法和装置
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN117093556A (zh) 日志分类方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant