CN111984788B - 电力系统违章管理方法、装置及电力设备 - Google Patents

电力系统违章管理方法、装置及电力设备 Download PDF

Info

Publication number
CN111984788B
CN111984788B CN202010844702.3A CN202010844702A CN111984788B CN 111984788 B CN111984788 B CN 111984788B CN 202010844702 A CN202010844702 A CN 202010844702A CN 111984788 B CN111984788 B CN 111984788B
Authority
CN
China
Prior art keywords
violation
sample
entity
record
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010844702.3A
Other languages
English (en)
Other versions
CN111984788A (zh
Inventor
叶万余
梁广
李聪
郭月峰
汪密
陈松波
余耀权
严永高
耿晓昕
尹祖春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202111005703.XA priority Critical patent/CN113722417B/zh
Priority to CN202010844702.3A priority patent/CN111984788B/zh
Publication of CN111984788A publication Critical patent/CN111984788A/zh
Priority to PCT/CN2021/070083 priority patent/WO2022036998A1/zh
Application granted granted Critical
Publication of CN111984788B publication Critical patent/CN111984788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种电力系统违章管理方法、装置及电力设备。该电力系统违章管理方法包括:基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,目标映射关系用于展示电力实体词汇与实体类别的对应关系;基于目标映射关系对预设数量的样本违章记录进行处理,得到违章分类模型,其中,每个样本违章记录均对应一违章类型;获取违章数据;对违章数据中的各违章记录进行数据清洗;对清洗后的各违章记录进行分词处理;基于违章分类模型和分词处理后的各违章记录,确定各违章记录的违章类型。本实施例能够通过违章分类模型对违章记录进行自动分类,解决了现有技术中需要人工进行手动分类而造成的分类效率低且容易出错的问题。

Description

电力系统违章管理方法、装置及电力设备
技术领域
本发明实施例涉及电力系统安全监察分析领域,尤其涉及一种电力系统违章管理方法、装置及电力设备。
背景技术
电力安全监察和管理是电力企业安全管理部门和安全监管人员按照相关的国家文献、企业规章制度要求,对电力企业内部以及其他管理部门是否落实国家电力行业安全生产规定和使用情况进行的一项安全监督管理活动。为了更好地提高电力企业安全监察管理,各企业内部单位和部门及其人员由上而下共同构成了电力企业安全监察体系。
当前在违章数据分析的过程中,存在数据利用率低的问题。虽然供电公司各专业各层级均建立了安全监察数据和生产运行数据的收集机制,但各类数据收集、汇总仍依靠人工开展,工作效率低,存在安全数据不真实、不完整的问题,同时缺少数据平台的支持,不能有效地实现数据规范化和格式化,因此难于获得违章中的共性问题,并进行合理的预防。
生产运行数据主要以文本形式存储信息,包括不同类型、不同结构的数据,数据表达形式不规则、不标准,且不同格式文本记录之间存在着强关联性,导致数据处理困难。在实际安全生产中,主要通过人工方式检测和分析出潜在风险,人工处理能力有限、效率低下、费时费力,且挖掘出的风险信息有限,无法为实际的安全生产提供有效的指导。此外,针对大量的安全问题数据,目前主要运用人工主观经验进行判断和分析,通常只关注经常发生的大问题,而忽视了小问题。
发明内容
本发明实施例提供一种电力系统违章管理方法、装置及电力设备,实现违章数据的自动归类汇总,降低共性问题的统计困难。
第一方面,本发明实施例提供了一种电力系统违章管理方法,包括:
基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,所述目标映射关系用于展示电力实体词汇与实体类别的对应关系;
基于所述目标映射关系对预设数量的样本违章记录进行处理,得到违章分类模型,其中,每个所述样本违章记录均对应一违章类型;
获取违章数据;
对所述违章数据中的各违章记录进行数据清洗;
对清洗后的各所述违章记录进行分词处理;
基于所述违章分类模型和分词处理后的各所述违章记录,确定各所述违章记录的违章类型。
可选的,所述基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,包括:
对电力系统的样本文档数据进行数据清洗,得到样本语料库;
基于预设的电力系统分词列表对所述样本语料库中的各语料语句进行分词处理,得到样本分词库;
基于预设的词汇类别表将所述样本分词库中描述违章的样本实体词汇分配至对应的样本类别中,以形成目标映射关系。
可选的,所述基于所述目标映射关系对预设数量的样本违章记录进行处理,得到违章分类模型,包括:
对预设数量的样本违章记录进行数据清洗;
对清洗后的各所述样本违章记录进行分词处理,得到实体词汇样本库;
计算所述实体词汇样本库中各样本实体词汇的质量和各样本实体词汇的交叉引力值,其中,所述交叉引力值用于展示所述对应所述样本实体词汇间的关联性;
基于所述目标映射关系和所述样本实体词汇的交叉引力值,确定样本类别引力值,其中,所述样本类别引力值用于展示各实体类别间的关联性;
记录各所述样本违章记录所具有的样本类别引力值以及所对应的违章类型,以得到违章分类模型。
可选的,按照如下公式计算各所述样本实体词汇的质量:
Figure GDA0003119451490000031
式中:Wi为第i个样本实体词汇的质量,NW为所述样本实体词汇的总数量,
Figure GDA0003119451490000032
为第j个所述样本实体词汇的出现次数;以及,
按照如下公式计算各所述样本实体词汇的交叉引力值:
Figure GDA0003119451490000033
式中:Wi为第i个样本实体词汇的质量,Wj为第j个样本实体词汇的质量,Rij为第i个所述样本实体词汇与第j个所述样本实体词汇之间的距离,g为常数。
可选的,所述基于所述违章分类模型和分词处理后的各所述违章记录,确定各所述违章记录的违章类型,包括:
获取分词处理后的各所述违章记录中的电力实体词汇;
计算各所述违章记录中电力实体词汇的内引力值,其中,所述内引力值为同一违章记录中的各所述电力实体词汇之间的引力值;
基于所述词汇类别表将所述内引力值转换为实体类别引力值;
基于各所述违章记录所包含的实体类别引力值与所述违章分类模型中各所述样本类别引力值的比较结果,确定各所述违章记录所对应的目标样本违章记录;
将所述目标样本违章记录的违章类型确定为对应所述违章记录的违章类型。
可选的,所述基于各所述违章记录所包含的实体类别引力值与所述违章分类模型中各所述样本类别引力值的比较结果,确定各所述违章记录所对应的目标样本违章记录,包括:
将各所述违章记录所包含的实体类别引力值与所述违章分类模型中各所述样本类别引力值进行比较,以确定出与所述实体类别引力值类别一致的样本类别引力值;
基于如下公式计算各所述违章记录中各所述实体类别引力值的差值均方根;
Figure GDA0003119451490000041
将与各所述违章记录具有最小差值均方根的所述样本违章记录确定为各所述违章记录所对应的目标样本违章记录;
公式(3)中:R为差值均方根;
Figure GDA0003119451490000042
为包含在所述违章记录中的第一实体类别引力值;G1为所述样本违章记录中的第一样本类别引力值;
Figure GDA0003119451490000043
为包含在所述违章记录中的第二实体类别引力值;G2为所述样本违章记录中的第二样本类别引力值;
Figure GDA0003119451490000051
为包含在所述违章记录中的第n实体类别引力值;Gn为所述样本违章记录中的第n样本类别引力值,n为所述违章记录所包含的实体类别引力值的数量。
可选的,对各所述违章记录,按照如下公式计算各所述违章记录中电力实体词汇的内引力值:
GBij=WBiWBj (4)
式中:GBij为所述违章记录中各所述电力实体词汇的内引力值;WBi为同一所述违章记录中第i个所述电力实体词汇的质量;WBj为同一所述违章记录中第j个所述电力实体词汇的质量。
可选的,在所述基于所述违章分类模型和分词处理后的各所述违章记录,确定各所述违章记录的违章类型之后,所述方法还包括:
对各所述违章记录按照违章类型进行归类,以统计各违章类型的违章频率;
将所述违章频率大于或等于预设的频率阈值的违章类型确定为典型违章类型。
第二方面,本发明实施例还提供了一种电力系统违章分类装置,该电力系统违章装置包括:
目标映射关系确定模块,用于基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,所述目标映射关系用于展示电力实体词汇与实体类别的对应关系;
违章分类模型建立模块,用于基于所述目标映射关系对预设数量的样本违章记录进行处理,得到违章分类模型,其中,每个所述样本违章记录均对应一违章类型;
违章数据获取模块,用于获取违章数据;
数据清洗模块,用于对所述违章数据中的各违章记录进行数据清洗;
分词模块,用于对清洗后的各所述违章记录进行分词处理;
违章类型确定模块,用于基于所述违章分类模型和分词处理后的各所述违章记录,确定各所述违章记录的违章类型。
第三方面,本发明实施例还提供了一种电力设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的电力系统违章管理方法。
本发明实施例所提供的电力系统违章管理方法,通过对电力系统的样本文档数据和预设的词汇类别表进行预处理,得到反映电力实体词汇与实体类别的对应关系的目标映射关系,再使用目标映射关系对样本违章数据进行处理,得到违章分类模型,该违章分类模型建立了实体类别与违章类型的对应关系。通过对违章记录进行数据清洗,以剔除违章数据中各违章记录的停用词和不必要的符号等;通过对清洗后的违章记录进行分词处理,使得组成违章记录文本的各分词符合电力系统的分词标准;进而根据违章分类模型对分词处理后的各违章记录进行数据比对,确定出各违章记录所对应的违章类型。本实施例所提供的违章数据管理方法,能够通过预设的违章分类模型对违章记录进行自动处理,实现对违章记录的自动分类,解决了现有技术中需要人工进行手动分类而造成的分类效率低且容易出错的问题,能够对各类违章记录进行正确的分类,提高了对于违章分类的准确性。
附图说明
图1为本发明实施例一提供的一种电力系统违章管理方法的流程图;
图2为本发明实施例提供的另一种电力系统违章管理方法的流程图;
图3为本发明实施例提供的一种电力系统违章分类装置的结构框图;
图4为本发明实施例提供的一种电力设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例一提供的一种电力系统违章管理方法的流程图,本实施例可适用于通过电力系统所记录的违章记录来确定典型违章问题,从而对电力系统进行违章管理的情况。以通过对违章记录的自动分类找出典型的违章类型,为安全生产法提供有效指导。该方法可以由具有数据处理能力的电力设备来执行,例如,由配置有违章管理方法的计算机设备来执行。该电力系统违章管理方法具体包括如下步骤:
S110、基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,目标映射关系用于展示电力实体词汇与实体类别的对应关系。
其中,电力系统的样本文档数据为用于描述电力系统的专业文本数据。在一实施例中,该专业文本主要包括电力的基础知识文档、安全监察相关的规章制度文档和电力系统作业的流程性文档。其中,电力的基础知识文档应包括电力作业中涉及的设备、工器具和操作流程;安全监察相关的规章制度文档应包括对违章行为的定义、违章对应的归类描述和违章对应的代码;电力系统作业的流程性文档应包括电力作业的正确流程描述。
预设的词汇类别表用于描述电力系统相关词汇的分类类别,该分类类别用于描述电力作业的目标和违章分析的目标维度。针对电力作业的目标,具体分类例如可以为:元件、设备、设施、操作等;针对违章分析的目标,具体分类例如可以为工器具、作业票据、作业文档等。
表1为本发明实施例提供的一示例性的目标映射关系表。在确定出实体类别后,将电力系统的样本文档数据中的各电力实体词汇归入到对应的实体类别,形成目标映射关系。从表1可以看出,在预设的词汇列表所约定的关系下,样本文档数据中的各电力实体词汇被唯一归入到对应的实体类别中,从而建立了电力实体词汇与实体类别的对应关系。
表1
Figure GDA0003119451490000081
Figure GDA0003119451490000091
S120、基于目标映射关系对预设数量的样本违章记录进行处理,得到违章分类模型。
其中,每个样本违章记录均对应一违章类型。可选的,违章类型可使用违章代码进行表示,即样本违章记录中包含有对应的违章代码。
电力企业为了执行安全监察管理,会对每条违章行为进行记录,并匹配对应的违章代码,形成违章记录以记录违章现象。例如:“张三在作业前未参加工作负责人组织的现场安全交代,擅自参与工作——违章代码D3”。本实施例中的样本违章记录可由人工对历史的违章记录进行挑选、整理得到。
因为每个样本违章记录均唯一对应一违章类型,因而通过将样本违章记录与实体类别进行关联,可以得到实体类别所具有的违章类型,即为违章分类模型,关于违章分类模型的具体确定方法请参见后续实施例的介绍。
需要注意的是,为了提高违章分类模型的可靠性,本实施例中应包含足够数量的样本违章记录。
S130、获取违章数据。
其中,违章数据中包含有大量的违章记录,各违章记录用于具体描述作业人员在作业过程中的违章行为。其中的违章记录来源于电力系统的日常作业监察,作业中安全监察人员会对作业过程进行监督,当发现违章事项时,安全监察人员会在违章记录表格中对违章的行为进行记录,形成对应的违章记录。例如“高处作业人员随手上下抛掷工具、器具和材料”即为一个违章记录。
不同于样本违章记录,违章数据中的违章记录是来源于现场记录的违章信息,还未经过安全监察人员进行实分析,因此该违章数据中的违章记录仅包含了违章的现象描述,没有人为归类的违章代码,即违章数据中的违章记录还没有分配违章类型。
S140、对违章数据中的各违章记录进行数据清洗。
其中,数据清洗的目的在于去除违章记录中的停用词、没有物理意义的连接词和删除符号等。首先根据词典剔除违章记录文本中包含的功能词,功能词没有具体的实际含义,比如“是”、“在”、“之上”等;之后根据词典剔除停用词汇词,比如“需要”、“可能”等;最后根据词典剔除符号,形成清洗后的违章数据语料库。
例如,针对违章记录中的违章行为描述“高处作业人员随手上下抛掷工具、器具和材料”进行数据清洗后,得到的文本为“作业人员随手上下抛掷工具器具材料”。
S150、对清洗后的各违章记录进行分词处理。
其中,分词处理的目的在于将各违章记录中描述违章的语句进行有效的分割,为后续步骤进行关联性计算作准备。
经过数据清洗后,各实体词汇未被有效分割,因而需要对数据清洗后的文本进行分词处理。
在一实施例中,通过Jieba分词,对个违章记录中的句子进行切割分词处理。Jieba是一个中文自然语言处理工具,主要功能包括对中文句子的分词处理,能够将一句话的文字描述,正确的切割成组成这句话的词汇。但Jieba主要面对标准化的中文文档,因此在电力系统的应用中存在局限性,比如会将“感应电流”错误地切割为“感应”和“电流”两个词汇。为了避免这一问题,需要导入电力系统专用词汇列表,从而基于电力系统专用词汇列表利用Jieba对数据清洗后的各违章记录语料语句进行分割,形成正确的构成分词。
例如,对清洗后的文本“作业人员随手上下抛掷工具器具材料”进行Jieba分词后,形成的词汇列表为“作业”、“人员”、“随手”、“上下”、“抛掷”、“工具”、“器具”、“材料”。
S160、基于违章分类模型和分词处理后的各违章记录,确定各违章记录的违章类型。
其中,违章分类模型已经记录了各实体类别所对应的违章类型,因而通过将分词处理后的各违章记录与违章分类模型中进行比对,可以确定各违章记录中是否包含有违章分类模型所描述的电力实体词汇,而因为违章记录模型中已经记录了各实体类别的违章类型,因而通过比对后,可以将违章分类模型中实体类别的违章类型分配给对应的违章记录,进而确定各违章记录的违章类型。
该违章管理方法的原理为:通过对样本数据进行处理得到表征违章类型和违章记录对应关系的违章分类模型,对违章数据中的各违章记录进行预处理后得到表述各违章记录的有效词汇,再基于违章分类模型对预处理后的违章记录进行对比将违章模型中对应类别的违章类型关联至对应的违章记录,从而确定出各违章记录的违章类型。
本发明实施例所提供的电力系统违章管理方法,通过对电力系统的样本文档数据和预设的词汇类别表进行预处理,得到反映电力实体词汇与实体类别的对应关系的目标映射关系,再使用目标映射关系对样本违章数据进行处理,得到违章分类模型,该违章分类模型建立了实体类别与违章类型的对应关系。通过对违章记录进行数据清洗,以剔除违章数据中各违章记录的停用词和不必要的符号等;通过对清洗后的违章记录进行分词处理,使得组成违章记录文本的各分词符合电力系统的分词标准;进而根据违章分类模型对分词处理后的各违章记录进行数据比对,确定出各违章记录所对应的违章类型。本实施例所提供的违章数据管理方法,能够通过预设的违章分类模型对违章记录进行自动处理,实现对违章记录的自动分类,解决了现有技术中需要人工进行手动分类而造成的分类效率低且容易出错的问题,能够对各类违章记录进行正确的分类,提高了对于违章分类的准确性。
可选的,在上述技术方案的基础上,在确定出各违章记录的违章类型后,该违章管理方法还包括:
对各违章记录按照违章类型进行归类,以统计各违章类型的违章频率;
将违章频率大于或等于预设的频率阈值的违章类型确定为典型违章类型。
具体地,对违章数据中的违章记录逐一确认违章类型,以对违章数据按照违章类型进行归类。例如针对工器具违章进行分析时,则记录含有该违章代码的全部违章记录,形成记录的集合。在按照违章类型进行进行二次归类后,形成违章统计映射表,以表征每一违章类型所具有的违章数量,映射格式例如可以为:违章代码——违章数量,例如“D3–25例”。统计违章数据中违章记录表格中符合该违章分类类型的记录对应的违章代码,形成违章代码的频率表。
违章代码的频率表中频率超过设定阈值的违章代码视为典型问题代码:根据违章统计映射表中的数据形成分析目标,设定典型问题阈值,当违章统计映射表中的某项违章代码所对应的违章数量超过该阈值时,则认定该违章代码为典型问题代码。例如违章统计映射表中“工器具违章”共100起,违章代码D3有25例,超过阈值≥20%,该违章代码D3为典型问题代码。典型问题代码对应的问题描述即为电力系统违章的典型问题。
根据安全规定中违章代码查询所对应的描述,形成电力系统违章的典型问题说明。例如“D3-作业人员未参加工作负责人组织的现场安全交代,擅自参与工作”,则典型的违章行为是“作业人员未参加工作负责人组织的现场安全交代,擅自参与工作”,该说明为分析目标的典型问题。这一结果可供安全监察人员集中进行检查,降低出现该类违章的风险。
可选的,在上述技术方案的基础上,本实施例S110中对目标映射关系的确定过程可具体细化如下:
S111、对电力系统的样本文档数据进行数据清洗,得到样本语料库。
其中,在获取到电力系统的样本文档数据后,通过数据清洗,去除样本文档数据中的停用词,连接词以及标点符号等。对样本文档数据进行数据清洗的方法与对违章数据进行数据清洗的方法类似,此处不再赘述。
S112、基于预设的电力系统分词列表对样本语料库中的各语料语句进行分词处理,得到样本分词库。
其中,可利用Jieba对上述步骤得到的样本语料库中的语料语句进行分割,形成正确的构成分词。例如,对安全监察相关的规章制度文档中的违章描述“未按规定办理厂站、线路第一种工作票开展现场作业”去除停用词和符号后,形成“办理厂站线路工作票现场作业”,之后切割形成“办理”、“厂站”、“线路”“工作票”、“现场作业”。
S113、基于预设的词汇类别表将样本分词库中描述违章的样本实体词汇分配至对应的样本类别中,以形成目标映射关系。
其中,可通过鼠标划词的方式记录电力实体词汇。
词汇类别表用于描述电力相关词汇的分类类别,该分类类别用于描述电力作业的目标和违章分析的目标维度。
因为经过步骤S112分词处理后得到的电力实体词汇并非全部用于描述违章,因而需要对样本分词库中的各电力实体词汇进行筛选,以筛选出描述违章的电力实体词汇词汇。再按照电力系统的词汇类别表将筛选出的各电力实体词汇分配至对应的实体类别中,从而形成目标映射关系。可见,该目标映射关系表征了电力实体词汇与实体类别的对应关系。因而,基于该目标映射关系,可以为每一个描述违章的电力实体词汇匹配到对应的实体类别。例如“变压器-设备”、“巡检-操作”等。
可选的,图2为本发明实施例提供的另一种电力系统违章管理方法的流程图,本实施例在上述实施例的基础上对违章分类模型的确定方法以及基于违章分类模型确定违章记录的违章类型进行了优化,参考图2,该方法具体包括如下步骤:
S210、基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,目标映射关系用于展示电力实体词汇与实体类别的对应关系。
S220、对预设数量的样本违章记录进行数据清洗。
数据清洗的具体方法可参见上述任意实施例的介绍,此处不再赘述。
通过数据清洗将样本违章记录中的停用词去除。例如“张三在作业前未参加工作负责人组织的现场安全交代,擅自参与工作”这一样本违章记录,数据清洗后形成数据描述“张三作业工作负责人组织现场安全交代擅自参与工作”。
S230、对清洗后的各样本违章记录进行分词处理,得到实体词汇样本库。
可通过Jieba分词进行分词处理,得到实体词汇样本库。分词的具体方法可参见上述任意实施例的介绍,此处不再赘述。
经过分词处理后即得到符合电力系统要求的各电力实体词汇。例如上述清洗后的数据描述“张三作业工作负责人组织现场安全交代擅自参与工作”,经过分词处理后形成实体词汇列表:“张三”、“作业”、“工作负责人”、“组织”、“现场”、“安全交代”、“擅自”、“参与”、“工作”。对所有经过数据清洗的样本违章数据进行分词处理,得到包括全部样本实体词汇的集合,即为实体词汇样本库。
S240、计算实体词汇样本库中各样本实体词汇的质量和各样本实体词汇的交叉引力值。
其中,交叉引力值用于展示对应样本实体词汇间的关联性。
可选的,可按照如下公式计算各电力实体词汇的质量:
Figure GDA0003119451490000151
式中:Wi为第i个样本实体词汇的质量,NW为样本实体词汇的总数量,
Figure GDA0003119451490000152
为第j个样本实体词汇的出现次数。
经过分词处理后,已经去除了停用词,因此样本实体词汇必然为电力系统相关信息和违章行为的描述词,当该样本实体词汇出现的频率
Figure GDA0003119451490000153
越高时,通过计算得到的Wi的数值也越高。
可选的,可按照如下公式计算各样本电力实体词汇的交叉引力值:
Figure GDA0003119451490000154
式中:Wi为第i个样本实体词汇的质量,Wj为第j个样本实体词汇的质量,Rij为第i个样本实体词汇与第j个样本实体词汇之间的距离,其数值等于第i个实体词汇和第j个实体词汇在样本违章记录中同时出现于同一句子中的数量。g为常数,在本实施例中可设置为0.1。
可见,当第i个样本实体词汇和第j个样本实体词汇同时出现的次数越多时,两者间的引力越大。记录所有样本实体词汇之间的引力关系,即对于任意第i个样本实体词汇和第j个样本实体词汇,均记录了相互间的交叉引力,从而记录了样本违章记录中相关样本实体词汇的关联强弱。
S250、基于目标映射关系和样本实体词汇的交叉引力值,确定样本类别引力值。
其中,样本类别引力值用于展示各实体类别间的关联性。
根据目标映射关系,每个样本实体词汇均唯一对应一实体类别,因而样本实体词汇的交叉引力值可计算得到样本类别引力值。
例如,有一违章代码为X的样本违章记录包含:实体词汇i(属于实体类别m)、实体词汇j(属于实体类别n)、实体词汇k(属于实体类别o),三个样本实体词汇间的交叉引力值为Gij、Gjk和Gik。则记录该条样本违章记录的实体关系的样本类别引力值为:
Figure GDA0003119451490000161
Figure GDA0003119451490000162
Figure GDA0003119451490000163
针对这条违章记录,实体分类的引力关系和违章代码之间的关系如表2所示:
表2
Figure GDA0003119451490000171
下面以一具体示例进行说明。例如样本违章记录“张三在作业前未参加工作负责人组织的现场安全交代,擅自参与工作——违章代码D3”,经过步骤S220和步骤S230处理后形成词汇列表“张三”、“作业”、“工作负责人”、“组织”、“现场”、“安全交代”、“擅自”、“参与”、“工作”。根据表1的目标映射关系可以看出,样本实体词汇对应样本实体类别的映射为:“张三”—“人名”,“工作负责人”—“角色”,“安全交代”—“作业文档”。而实体词汇“作业”、“现场”、“擅自”、“参与”、“工作”无对应的实体分类,因此被略去。通过步骤S240计算得到样本实体词汇的交叉引力值:G张三-工作负责人、G工作负责人-安全交代、G张三-安全交代,最后折算成实体关系的引力:
Figure GDA0003119451490000172
形成如表3所示的映射关系:
表3
Figure GDA0003119451490000173
S260、记录各样本违章记录所具有的样本类别引力值以及所对应的违章类型,以得到违章分类模型。
经过上述步骤的处理,可以得到样本违章数据中各个样本违章记录所对应的样本实体词汇引力值、样本类别引力值和违章代码三者间的对应关系,将该对应关系按照一定的格式进行记录以形成违章分类模型。可见,违章分类模型记录了描述某类违章中所包含的实体词汇具体所对应的实体类别是哪些,以及记录了所对应的违章代码。
例如,假设样本违章数据中一共包含p条违章记录,则形成的违章分类模型可按照如下表格进行记录:
表4
样本实体词汇交叉引力 样本实体类别引力 违章代码
记录1的实体词汇间引力 记录1的实体关系间引力 记录1违章代码
记录2的实体词汇间引力 记录2的实体关系间引力 记录2违章代码
记录p的实体词汇间引力 记录p的实体关系间引力 记录p违章代码
其中的违章类型通过违章代码表示,从表4可以看出,在违章分类模型中,清晰地记录了各个样本违章记录中所具有的样本实体词汇引力,样本实体类别引力,以及违章类型的对应关系,基于该对应关系可对待分析的违章数据中的各违章记录进行自动分类,实现对违章问题的归类汇总。
S270、获取违章数据。
S280、对违章数据中的各违章记录进行数据清洗。
S290、对清洗后的各违章记录进行分词处理。
S300、基于违章分类模型和分词处理后的各违章记录,确定各违章记录的违章类型。
由上述步骤可知,违章分类模型已经记录了各类违章中所包含的实体类别的引力值以及所对应的违章类型。因而通过将实际违章记录中的各实体词汇转换为对应的实体类别,从而基于实体类别的引力值与违章分类模型中的样本类别引力值进行比较,可以得到最接近的样本违章记录,从而确定出该实际违章记录所对应的违章类型。
由此,该步骤可具体优化如下:
S301、获取分词处理后的各违章记录中的电力实体词汇。
S302、计算各违章记录中电力实体词汇的内引力值,其中,内引力值为同一违章记录中的各电力实体词汇之间的引力值。
具体地,对各违章记录,可按照如下公式计算各违章记录中电力实体词汇的内引力值:
GBij=WBiWBj (4)
式中:GBij为违章记录中各电力实体词汇的内引力值;WBi为同一违章记录中第i个电力实体词汇的质量;WBj为同一违章记录中第j个电力实体词汇的质量。
由于在某一具体的违章记录中,各个电力实体词汇同时出现于同一违章记录,因此必然关联,因而在计算内引力值时无需考虑关联引力。
S303、基于词汇类别表将内引力值转换为实体类别引力值。
具体地,因为词汇类别表中已经记录了电力实体词汇与实体类别的对应关系,因而基于该对应关系进行转换,可以得到对应于各个内引力值的实体类别引力值。将内引力值转换为实体类别引力值的方法与上述实施例将样本实体词汇的交叉引力值转换为样本类别引力值的方法一致,此处不再赘述。
例如,违章记录“李四在作业前未阅读负责人签发的安全交代”中的实体词汇“李四”、“作业”、“阅读”、“负责人”、“签发”、“安全交代”中“作业”、“阅读”、“签发”不属于实体词汇类别中的任何分类,需要剔除,其他的映射关系为“李四”—“人名”,“负责人”—“角色”,“安全交代”—“作业文档”。GC李四-负责人、GC负责人-安全交代、GC李四-安全交代,将被记录为
Figure GDA0003119451490000191
S304、基于各违章记录所包含的实体类别引力值与违章分类模型中各样本类别引力值的比较结果,确定各违章记录所对应的目标样本违章记录。
具体地,在得到实体类别引力值后,通过查找违章分类模型,找到比例最接近的样本违章记录后,获得最有可能一致的违章记录。
例如,在步骤S303和步骤S304的示例中,显然,“张三作业工作负责人组织现场安全交代擅自参与工作”和“李四在作业前未阅读负责人签发的安全交代”两条记录的映射关系均为
Figure GDA0003119451490000201
Figure GDA0003119451490000202
Figure GDA0003119451490000203
且两者的引力关系类似,因此属于同类违章。
本实施例中将违章记录中的实体类别引力值与违章分类模型中的样本类别引力值进行比较的目的是要找到与违章记录最接近的样本违章记录。该比较过程可具体优化如下:
将各违章记录所包含的实体类别引力值与违章分类模型中各样本类别引力值进行比较,以确定出与实体类别引力值类别一致的样本类别引力值;
基于如下公式计算各违章记录中各实体类别引力值的差值均方根;
Figure GDA0003119451490000204
将与各违章记录具有最小差值均方根的样本违章记录确定为各违章记录所对应的目标样本违章记录;
公式(3)中:R为差值均方根;
Figure GDA0003119451490000205
为包含在违章记录中的第一实体类别引力值;G1为样本违章记录中的第一样本类别引力值;
Figure GDA0003119451490000206
为包含在违章记录中的第二实体类别引力值;G2为样本违章记录中的第二样本类别引力值;
Figure GDA0003119451490000207
为包含在违章记录中的第n实体类别引力值;Gn为样本违章记录中的第n样本类别引力值,n为违章记录所包含的实体类别引力值的数量。
S305、将目标样本违章记录的违章类型确定为对应违章记录的违章类型。
具体地,通过公式(3)进行计算后,可得到与违章记录最接近的样本违章记录,即为目标样本违章记录,根据表4(对应于违章分类模型),该目标样本违章记录中的第三列所对应的违章代码即为当前的违章记录的违章代码,即违章类型。由于该搜索过程为基于实体类型的搜索,因而有效滤除了实体词汇的狭义性,同时降低了安全监察人员的工作负担。举例说明如下:
示例一,在样本违章记录中存在描述“张三(人名实体)在作业前未参加工作负责人(角色实体)组织的现场安全交代(作业文档实体),擅自参与工作”,该文字描述的引力关系显然与实际违章记录中“李四(人名实体)在作业前未阅读负责人(角色实体)签发的安全交代(作业文档实体)”完全一致,因此基于违章分类模型可自动获取到样本违章记录所对应的违章代码,即为该实际违章记录的违章代码。
示例二、在样本违章记录中存在描述“张三(人名实体)未穿戴安全帽(防护用品实体),擅自参与工作”,该文字描述的引力关系显然与实际违章记录中“李四(人名实体)未参穿工作服(防护用品实体)就进入作业区”完全一致,因此通过比较可自动获得该条实际违章记录的违章代码。
在传统的违章分析中,违章行为的归类占用了大量的安全监察人员精力,通过电力设备自动执行本发明实施例提供的违章管理方法,能够精简违章分类的过程。
本实施例通过在确定了目标映射关系后,通过对足量的样本违章数据分别进行计算,得到样本违章数据中各样本实体词汇间的交叉引力,再根据目标映射关系对各样本实体词汇的交叉引力进行转换,得到各样本实体类别间的引力关系,从而得到记录了样本实体类别引力关系、样本实体词汇引力关系以及样本违章类型对应关系的违章分类模型。通过对待分析的违章数据进行数据清洗和分词处理后,将待分析违章数据中各条违章记录中的电力实体词汇的内引力与违章分类模型中的电力实体交叉引力进行比较计算,得到与待分析违章记录最接近样本违章记录,即为目标样本违章记录,而因为违章分类模型中已经记录了样本违章记录所对应的违章类型,从而将目标样本违章记录的违章类型分配给对应的待分析违章记录,从而确定出待分析违章数据中各违章记录的违章类型。本实施例由电力设备自动对违章记录进行归类,一方面可以有效的解决违章数据的汇总统计困难问题:传统的违章汇总靠人为观察汇总,容易遗漏汇总项目,无法明确的找到违章信息共性问题。本实施例借助分词工具和实体识别技术,实现违章数据的自动归类汇总,降低共性问题统计的困难。另一方面可以有效的解决安全监察人员对于违章信息的违章类型分类困难问题:电力系统中违章的事件数量较多,每月违章事件多达数万件。受到安全监察人员数量的限制,一般难以对如此数量的违章进行细致的违章类型分类。同时安全监察人员的业务能力并不完全一致,难以保证一致性的违章类型分类结果,为后续的进一步分析带来障碍。本实施例采用了人工智能辅助Jieba分词的基于实体标注的分类方法,可以更准确的自动对违章类型进行分类,保证违章数据的分类准确性。
可选的,图3为本发明实施例提供的一种电力系统违章分类装置的结构框图,该电力系统违章分类装置包括目标映射关系确定模块310、违章分类模型建立模块320、违章数据获取模块330、数据清洗模块340、分词模块350和违章类型确定模块360,其中,
目标映射关系确定模块310,用于基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,目标映射关系用于展示电力实体词汇与实体类别的对应关系;
违章分类模型建立模块320,用于基于目标映射关系对预设数量的样本违章记录进行处理,得到违章分类模型,其中,每个样本违章记录均对应一违章类型;
违章数据获取模块330,用于获取违章数据;
数据清洗模块340,用于对违章数据中的各违章记录进行数据清洗;
分词模块350,用于对清洗后的各违章记录进行分词处理;
违章类型确定模块360,用于基于违章分类模型和分词处理后的各违章记录,确定各违章记录的违章类型。
可选的,在一实施例中,目标映射关系确定模块310具体包括:
样本语料库获取单元,用于对电力系统的样本文档数据进行数据清洗,得到样本语料库;
样本分词库获取单元,用于基于预设的电力系统分词列表对样本语料库中的各语料语句进行分词处理,得到样本分词库;
目标映射关系形成单元,用于基于预设的词汇类别表将样本分词库中描述违章的样本实体词汇分配至对应的样本类别中,以形成目标映射关系。
可选的,在上述技术方案的基础上,违章分类模型建立模块320具体包括:
数据清洗单元,用于对预设数量的样本违章记录进行数据清洗;
第一分词单元,用于对清洗后的各样本违章记录进行分词处理,得到实体词汇样本库;
实体词汇质量计算单元,用于计算实体词汇样本库中各样本实体词汇的质量;
实体词汇交叉引力值计算单元,用于计算各样本实体词汇的交叉引力值,其中,交叉引力值用于展示对应样本实体词汇间的关联性;
样本类别引力确定单元,用于基于目标映射关系和样本实体词汇的交叉引力值,确定样本类别引力值,其中,样本类别引力值用于展示各实体类别间的关联性;
违章分类模型形成单元,用于记录各样本违章记录所具有的样本类别引力值以及所对应的违章类型,以得到违章分类模型。
可选的,在上述技术方案的基础上,实体词汇质量计算单元具体按照如下公式计算各样本实体词汇的质量:
Figure GDA0003119451490000241
式中:Wi为第i个样本实体词汇的质量,NW为样本实体词汇的总数量,
Figure GDA0003119451490000242
为第j个样本实体词汇的出现次数。
可选的,在上述技术方案的基础上,实体词汇交叉引力计算单元具体按照如下公式计算各样本实体词汇的交叉引力值:
Figure GDA0003119451490000243
式中:Wi为第i个样本实体词汇的质量,Wj为第j个样本实体词汇的质量,Rij为第i个样本实体词汇与第j个样本实体词汇之间的距离,g为常数。
可选的,在上述技术方案的基础上,违章类型确定模块360具体包括:
第二分词单元,用于获取分词处理后的各违章记录中的电力实体词汇;
内引力值计算单元,用于计算各违章记录中电力实体词汇的内引力值,其中,内引力值为同一违章记录中的各电力实体词汇之间的引力值;
实体类别引力值计算单元,用于基于词汇类别表将内引力值转换为实体类别引力值;
目标样本违章记录确定单元,用于基于各违章记录所包含的实体类别引力值与违章分类模型中各样本类别引力值的比较结果,确定各违章记录所对应的目标样本违章记录;
违章类型确定单元,用于将目标样本违章记录的违章类型确定为对应违章记录的违章类型。
可选的,在上述技术方案的基础上,目标样本违章记录确定单元具体用于:
将各违章记录所包含的实体类别引力值与违章分类模型中各样本类别引力值进行比较,以确定出与实体类别引力值类别一致的样本类别引力值;
基于如下公式计算各违章记录中各实体类别引力值的差值均方根;
Figure GDA0003119451490000251
将与各违章记录具有最小差值均方根的样本违章记录确定为各违章记录所对应的目标样本违章记录;
公式(3)中:R为差值均方根;
Figure GDA0003119451490000252
为包含在违章记录中的第一实体类别引力值;G1为样本违章记录中的第一样本类别引力值;
Figure GDA0003119451490000253
为包含在违章记录中的第二实体类别引力值;G2为样本违章记录中的第二样本类别引力值;
Figure GDA0003119451490000254
为包含在违章记录中的第n实体类别引力值;Gn为样本违章记录中的第n样本类别引力值,n为违章记录所包含的实体类别引力值的数量。
可选的,在上述技术方案的基础上,对各违章记录,内引力值计算单元具体按照如下公式计算各违章记录中电力实体词汇的内引力值:
GBij=WBiWBj (4)
式中:GBij为违章记录中各电力实体词汇的内引力值;WBi为同一违章记录中第i个电力实体词汇的质量;WBj为同一违章记录中第j个电力实体词汇的质量。
可选的,在上述技术方案的基础上,该电力系统违章分类装置还包括:
违章频率统计模块,用于对各违章记录按照违章类型进行归类,以统计各违章类型的违章频率;
典型违章确定模块,用于将违章频率大于或等于预设的频率阈值的违章类型确定为典型违章类型。
本发明实施例所提供的电力系统违章分类装置可执行本发明任意实施例所提供的电力系统违章管理方法,具备执行方法相应的功能模块和有益效果。
可选的,图4为本发明实施例提供的一种电力设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电力设备412的框图。图4显示的电力设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电力设备412以通用计算设备的形式表现。电力设备412的组件可以包括但不限于:一个或者多个处理器或者处理单元416,系统存储器428,连接不同系统组件(包括系统存储器428和处理单元416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电力设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电力设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)430和/或高速缓存存储器432。电力设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储器428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
电力设备12也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信,还可与一个或者多个使得用户能与该电力设备412交互的设备通信,和/或与使得该电力设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,电力设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与电力设备412的其它模块通信。应当明白,尽管图中未示出,可以结合电力设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元416通过运行存储在系统存储器428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的电力系统违章管理方法,该电力系统违章管理方法包括:
基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,目标映射关系用于展示电力实体词汇与实体类别的对应关系;
基于目标映射关系对预设数量的样本违章记录进行处理,得到违章分类模型,其中,每个样本违章记录均对应一违章类型;
获取违章数据;
对违章数据中的各违章记录进行数据清洗;
对清洗后的各违章记录进行分词处理;
基于违章分类模型和分词处理后的各违章记录,确定各违章记录的违章类型。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种电力系统违章管理方法,其特征在于,包括:
基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,所述目标映射关系用于展示电力实体词汇与实体类别的对应关系;
基于所述目标映射关系对预设数量的样本违章记录进行处理,得到违章分类模型,其中,每个所述样本违章记录均对应一违章类型;
对预设数量的样本违章记录进行数据清洗;
对清洗后的各样本违章记录进行分词处理,得到实体词汇样本库;
计算实体词汇样本库中各样本实体词汇的质量和各样本实体词汇的交叉引力值;
其中,交叉引力值用于展示对应样本实体词汇间的关联性;
基于目标映射关系和样本实体词汇的交叉引力值,确定样本类别引力值;
其中,样本类别引力值用于展示各实体类别间的关联性;
记录各样本违章记录所具有的样本类别引力值以及所对应的违章类型,以得到违章分类模型;
按照如下公式计算各样本实体词汇的质量:
Figure FDA0003119451480000011
式中:Wi为第i个样本实体词汇的质量,NW为样本实体词汇的总数量,
Figure FDA0003119451480000012
为第j个样本实体词汇的出现次数;以及,
按照如下公式计算各样本实体词汇的交叉引力值:
Figure FDA0003119451480000021
式中:Wi为第i个样本实体词汇的质量,Wj为第j个样本实体词汇的质量,Rij为第i个样本实体词汇与第j个样本实体词汇之间的距离,g为常数;
获取违章数据;
对所述违章数据中的各违章记录进行数据清洗;
对清洗后的各所述违章记录进行分词处理;
基于所述违章分类模型和分词处理后的各所述违章记录,确定各所述违章记录的违章类型。
2.根据权利要求1所述的电力系统违章管理方法,其特征在于,所述基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,包括:
对电力系统的样本文档数据进行数据清洗,得到样本语料库;
基于预设的电力系统分词列表对所述样本语料库中的各语料语句进行分词处理,得到样本分词库;
基于预设的词汇类别表将所述样本分词库中描述违章的样本实体词汇分配至对应的样本类别中,以形成目标映射关系。
3.根据权利要求1所述的电力系统违章管理方法,其特征在于,所述基于所述违章分类模型和分词处理后的各所述违章记录,确定各所述违章记录的违章类型,包括:
获取分词处理后的各所述违章记录中的电力实体词汇;
计算各所述违章记录中电力实体词汇的内引力值,其中,所述内引力值为同一违章记录中的各所述电力实体词汇之间的引力值;
基于所述词汇类别表将所述内引力值转换为实体类别引力值;
基于各所述违章记录所包含的实体类别引力值与所述违章分类模型中各所述样本类别引力值的比较结果,确定各所述违章记录所对应的目标样本违章记录;
将所述目标样本违章记录的违章类型确定为对应所述违章记录的违章类型。
4.根据权利要求3所述的电力系统违章管理方法,其特征在于,所述基于各所述违章记录所包含的实体类别引力值与所述违章分类模型中各所述样本类别引力值的比较结果,确定各所述违章记录所对应的目标样本违章记录,包括:
将各所述违章记录所包含的实体类别引力值与所述违章分类模型中各所述样本类别引力值进行比较,以确定出与所述实体类别引力值类别一致的样本类别引力值;
基于如下公式计算各所述违章记录中各所述实体类别引力值的差值均方根;
Figure FDA0003119451480000031
将与各所述违章记录具有最小差值均方根的所述样本违章记录确定为各所述违章记录所对应的目标样本违章记录;
公式(3)中:R为差值均方根;
Figure FDA0003119451480000032
为包含在所述违章记录中的第一实体类别引力值;G1为所述样本违章记录中的第一样本类别引力值;
Figure FDA0003119451480000033
为包含在所述违章记录中的第二实体类别引力值;G2为所述样本违章记录中的第二样本类别引力值;
Figure FDA0003119451480000041
为包含在所述违章记录中的第n实体类别引力值;Gn为所述样本违章记录中的第n样本类别引力值,n为所述违章记录所包含的实体类别引力值的数量。
5.根据权利要求1所述的电力系统违章管理方法,其特征在于,对各所述违章记录,按照如下公式计算各所述违章记录中电力实体词汇的内引力值:
GBij=WBiWBj (4)
式中:GB ij为所述违章记录中各所述电力实体词汇的内引力值;WBi为同一所述违章记录中第i个所述电力实体词汇的质量;WBj为同一所述违章记录中第j个所述电力实体词汇的质量。
6.根据权利要求1所述的电力系统违章管理方法,其特征在于,在所述基于所述违章分类模型和分词处理后的各所述违章记录,确定各所述违章记录的违章类型之后,所述方法还包括:
对各所述违章记录按照违章类型进行归类,以统计各违章类型的违章频率;
将所述违章频率大于或等于预设的频率阈值的违章类型确定为典型违章类型。
7.一种电力系统违章分类装置,其特征在于,包括:
目标映射关系确定模块,用于基于电力系统的样本文档数据和预设的词汇类别表确定目标映射关系,所述目标映射关系用于展示电力实体词汇与实体类别的对应关系;
违章分类模型建立模块,用于基于所述目标映射关系对预设数量的样本违章记录进行处理,得到违章分类模型,其中,每个所述样本违章记录均对应一违章类型;
数据清洗单元,用于对预设数量的样本违章记录进行数据清洗;
第一分词单元,用于对清洗后的各样本违章记录进行分词处理,得到实体词汇样本库;
实体词汇质量计算单元,用于计算实体词汇样本库中各样本实体词汇的质量;
实体词汇交叉引力值计算单元,用于计算各样本实体词汇的交叉引力值;其中,交叉引力值用于展示对应样本实体词汇间的关联性;
样本类别引力确定单元,用于基于目标映射关系和样本实体词汇的交叉引力值,确定样本类别引力值,其中,样本类别引力值用于展示各实体类别间的关联性;
违章分类模型形成单元,用于记录各样本违章记录所具有的样本类别引力值以及所对应的违章类型,以得到违章分类模型;
按照如下公式计算各样本实体词汇的质量:
Figure FDA0003119451480000051
式中:Wi为第i个样本实体词汇的质量,NW为样本实体词汇的总数量,
Figure FDA0003119451480000052
为第j个样本实体词汇的出现次数;以及,
按照如下公式计算各样本实体词汇的交叉引力值:
Figure FDA0003119451480000061
式中:Wi为第i个样本实体词汇的质量,Wj为第j个样本实体词汇的质量,Rij为第i个样本实体词汇与第j个样本实体词汇之间的距离,g为常数;
违章数据获取模块,用于获取违章数据;
数据清洗模块,用于对所述违章数据中的各违章记录进行数据清洗;
分词模块,用于对清洗后的各所述违章记录进行分词处理;
违章类型确定模块,用于基于所述违章分类模型和分词处理后的各所述违章记录,确定各所述违章记录的违章类型。
8.一种电力设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的电力系统违章管理方法。
CN202010844702.3A 2020-08-20 2020-08-20 电力系统违章管理方法、装置及电力设备 Active CN111984788B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111005703.XA CN113722417B (zh) 2020-08-20 2020-08-20 电力系统违章管理方法、装置及电力设备
CN202010844702.3A CN111984788B (zh) 2020-08-20 2020-08-20 电力系统违章管理方法、装置及电力设备
PCT/CN2021/070083 WO2022036998A1 (zh) 2020-08-20 2021-01-04 电力系统违章管理方法、装置及电力设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010844702.3A CN111984788B (zh) 2020-08-20 2020-08-20 电力系统违章管理方法、装置及电力设备

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111005703.XA Division CN113722417B (zh) 2020-08-20 2020-08-20 电力系统违章管理方法、装置及电力设备

Publications (2)

Publication Number Publication Date
CN111984788A CN111984788A (zh) 2020-11-24
CN111984788B true CN111984788B (zh) 2021-10-22

Family

ID=73442418

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010844702.3A Active CN111984788B (zh) 2020-08-20 2020-08-20 电力系统违章管理方法、装置及电力设备
CN202111005703.XA Active CN113722417B (zh) 2020-08-20 2020-08-20 电力系统违章管理方法、装置及电力设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202111005703.XA Active CN113722417B (zh) 2020-08-20 2020-08-20 电力系统违章管理方法、装置及电力设备

Country Status (2)

Country Link
CN (2) CN111984788B (zh)
WO (1) WO2022036998A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984788B (zh) * 2020-08-20 2021-10-22 广东电网有限责任公司清远供电局 电力系统违章管理方法、装置及电力设备
CN112559739A (zh) * 2020-12-01 2021-03-26 广东电网有限责任公司广州供电局 电力设备绝缘状态数据处理方法
CN113256057A (zh) * 2021-04-06 2021-08-13 国网河北省电力有限公司衡水供电分公司 电力系统检查方法及服务器
CN113269398A (zh) * 2021-04-26 2021-08-17 云南电网有限责任公司信息中心 一种用于配网现场作业人员定制化教培方案辅助设计方法
CN116108397B (zh) * 2022-12-22 2024-01-09 福建亿榕信息技术有限公司 融合多模态数据分析的电力现场作业违章行为识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897428A (zh) * 2017-02-27 2017-06-27 腾讯科技(深圳)有限公司 文本分类特征提取方法、文本分类方法及装置
CN108875067A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 文本数据分类方法、装置、设备及存储介质
CN110516033A (zh) * 2018-05-04 2019-11-29 北京京东尚科信息技术有限公司 一种计算用户偏好的方法和装置
CN111159414A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 文本分类方法及系统、电子设备、计算机可读存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130211905A1 (en) * 2012-02-13 2013-08-15 Microsoft Corporation Attractiveness-based online advertisement click prediction
CN104657463B (zh) * 2015-02-10 2018-04-27 乐娟 应用于自动问答系统的问句分类方法及装置
CN106127223A (zh) * 2016-06-13 2016-11-16 江苏科技大学 一种基于万有引力定律的分类方法
CN106294718A (zh) * 2016-08-08 2017-01-04 北京邮电大学 信息处理方法及装置
CN107766371B (zh) * 2016-08-19 2023-11-17 中兴通讯股份有限公司 一种文本信息分类方法及其装置
US11893500B2 (en) * 2017-11-28 2024-02-06 International Business Machines Corporation Data classification for data lake catalog
CN108388601A (zh) * 2018-02-02 2018-08-10 腾讯科技(深圳)有限公司 故障的分类方法、存储介质及计算机设备
CN108647711B (zh) * 2018-05-08 2021-04-20 重庆邮电大学 基于引力模型的图像的多标签分类方法
CN111191445B (zh) * 2018-11-15 2024-04-19 京东科技控股股份有限公司 广告文本分类方法及装置
CN109710926B (zh) * 2018-12-12 2023-08-29 内蒙古电力(集团)有限责任公司电力调度控制分公司 电网调度专业语言语义关系抽取方法、装置及电子设备
CN110135457B (zh) * 2019-04-11 2021-04-06 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110162592A (zh) * 2019-05-24 2019-08-23 东北大学 一种基于万有引力改进的TextRank的新闻关键词提取方法
CN111984788B (zh) * 2020-08-20 2021-10-22 广东电网有限责任公司清远供电局 电力系统违章管理方法、装置及电力设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897428A (zh) * 2017-02-27 2017-06-27 腾讯科技(深圳)有限公司 文本分类特征提取方法、文本分类方法及装置
CN110516033A (zh) * 2018-05-04 2019-11-29 北京京东尚科信息技术有限公司 一种计算用户偏好的方法和装置
CN108875067A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 文本数据分类方法、装置、设备及存储介质
CN111159414A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 文本分类方法及系统、电子设备、计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向跨语言文本分类与标签推荐的带标签双语主题模型的研究;田明杰等;《计算机应用研究》;20191031;第36卷(第10期);全文 *

Also Published As

Publication number Publication date
CN113722417B (zh) 2023-06-16
CN111984788A (zh) 2020-11-24
CN113722417A (zh) 2021-11-30
WO2022036998A1 (zh) 2022-02-24

Similar Documents

Publication Publication Date Title
CN111984788B (zh) 电力系统违章管理方法、装置及电力设备
CN110705855A (zh) 一种企业环境画像评价方法及系统
CN112837184A (zh) 一种适用于建筑工程的项目管理系统
CN114860882A (zh) 一种基于文本分类模型的公平竞争审查辅助方法
CN114817681B (zh) 一种基于大数据分析的金融风控系统及其管理设备
CN116049359A (zh) 一种基于文档内容分析的查重算法
CN115544272A (zh) 基于注意力机制的化工事故原因知识图谱构建方法
CN115034671A (zh) 基于关联规则与聚类的二次系统信息故障分析方法
CN117332761B (zh) 一种pdf文档智能识别标注系统
CN110796565A (zh) 监理日志的分析方法及分析系统
CN111104483A (zh) 基于机器学习的ict系统故障分析及辅助判别方法
CN114462736A (zh) 一种核电厂辐射工作许可证申请的经验反馈智能推荐方法
Rupasinghe et al. Understanding construction site safety hazards through open data: text mining approach
Ma et al. Mining construction accident reports via unsupervised NLP and Accimap for systemic risk analysis
CN115310869B (zh) 一种督查事项的联合督查方法、系统、设备以及存储介质
CN116629609A (zh) 一种基于文本挖掘的企业安全生产风险等级划分方法
CN112465380A (zh) 基于危废数据的企业行为分析方法、装置、设备及介质
CN112988972A (zh) 一种基于数据模型的行政处罚案卷评查方法及系统
CN113221556A (zh) 安全生产隐患的识别方法、装置及设备
CN112215006A (zh) 机构命名实体归一化方法和系统
CN113378560B (zh) 一种基于自然语言处理的试验报告智能诊断分析方法
CN117151122B (zh) 基于自然语言处理的银行客服会话问答处理方法及系统
CN113377746B (zh) 一种试验报告数据库构建和智能诊断分析系统
CN113269331B (zh) 一种变压器检修作业的知识库构建方法
Li et al. Text Classification of Civil Aviation Safety Supervision Based on Multi-Model Fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant