CN115759253A - 电网运维知识图谱构建方法及系统 - Google Patents
电网运维知识图谱构建方法及系统 Download PDFInfo
- Publication number
- CN115759253A CN115759253A CN202211395942.5A CN202211395942A CN115759253A CN 115759253 A CN115759253 A CN 115759253A CN 202211395942 A CN202211395942 A CN 202211395942A CN 115759253 A CN115759253 A CN 115759253A
- Authority
- CN
- China
- Prior art keywords
- power grid
- maintenance knowledge
- knowledge
- grid operation
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种电网运维知识图谱构建方法及系统,其特征在于,所述方法包括以下步骤:步骤1,选取运维知识语料进行切分后,实现电力行业词库的更新;步骤2,以所述电力行业词库中的电力行业技术名称、公司名称、专家名称、设备名称作为实体,具有层级关系和分类关系的实体作为标签从多维度构建所述电网运维知识体系;步骤3,将所述多维度中的每一个维度作为一个体系标签,基于多维度的所述电网运维知识体系构建数据立方体形式的电网运维知识图谱。系统用于实现方法的步骤。本发明基于深度学习算法,采用谱聚类,实现了海量词条的加工,获取了全面的电网运维知识图谱,实现了知识资源和知识体系的梳理和基于运维知识的共享服务系统、智能化应用等。
Description
技术领域
本发明涉及电力系统运维领域,尤其涉及一种电网运维知识图谱构建方法及系统。
背景技术
目前,在创新驱动发展、工业互联网和企业数字化转型的大背景下,知识管理是实现宏观战略的微观基础,也是支撑企业创新和数字化、智能化转型的基础。在大数据时代,随着信息化、数字化的不断推进,电力企业积累沉淀了大量的内容资源,这些资源作为知识经济时代的生产要素、经济增长的内生力量、企业发展的根本动力,上述资源如果能够经过转化,有助于提高企业的知识吸纳能力、知识流转利用效率,则能够成为提高企业技术创新能力的关键。
现有技术中,科学、规范的知识管理体系与集存储、共享、传承为一体的企业知识管理与知识服务平台成为了提供企业知识利用效率,助力创建一流企业的重要工具和基础保障设施。
然而,尽管电力企业沉淀了大量内容资源,但却缺乏体系化的管理手段和工具,无法对上述资源进行有组织、有计划的管理和提炼,知识管理混乱、知识共享不便、知识资产流失、知识再利用不足、知识发掘过程缺乏、知识资产量化不足等问题频发。这也使得电力系统中各个业务部门之间、各个信息系统之间存在着大量的信息孤岛,数据难以得到充分的应用。
进一步的,尽管目前电力企业内部也在不断对于多个业务系统中的数据进行汇聚,但一些非结构的内容资源和知识资源仍然分散在各个系统中,并没有得到有效统一的管理。另外,企业内部文档资源和隐形知识也是非常重要的一种内容资源,可是,大部分企业的文档归类和知识共享手段仍然十分落后,智能化工具缺乏,标准规范难以统一,这也使得这类隐形知识难以管理。
针对上述问题,本发明中提供了一种电网运维知识图谱构建方法及系统。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种电网运维知识图谱构建方法,将获取到的各类型运维知识预料进行切分以更新电力行业词库,从多个维度实现运维知识体系的构建后,将多个维度的知识体系进行融合,以实现电网运维知识图谱。
本发明采用如下的技术方案。
本发明第一方面,涉及一种电网运维知识图谱构建方法,方法包括以下步骤:步骤1,选取运维知识语料进行切分后,实现电力行业词库的更新;步骤2,以电力行业词库中的电力行业技术名称、公司名称、专家名称、设备名称作为实体,具有层级关系和分类关系的实体作为标签从多维度构建电网运维知识体系;步骤3,将多维度中的每一个维度作为一个体系标签,基于多维度的电网运维知识体系构建数据立方体形式的电网运维知识图谱。
优选的,步骤1中,运维知识预料包括从电力系统中采集的电网内部业务资源、从外部数据库中提取的电网外部文献资源和电力员工主动提交的待审知识资源。
优选的,电力行业词库中包括电力设备名词、电力技术名词、电力专业术语;电力行业词库中还包括所述名词和所述术语之间的关联关系信息,其中,所述关联关系包括上下位关系、同义关系、相关关系。
优选的,采用分词引擎,以电力行业词库中的名词和术语为参考,对运维知识语料进行切分;切分的结果中包括切分词内容、切分词频率。
优选的,基于运维知识语料中的切分词内容获取电力行业词库中最接近的词典;基于切分词内容与最接近的词典的匹配发现新词。
优选的,当实体为专家名称时,属性包括性别、年龄、职位;当实体为设备名称时,属性包括设备质量、设备产地、设备厂商。
优选的,多维度包括电网生产案例维度、重大事故事件维度、电网制度维度、电网报告成果维度、电网设备管理情报维度和电网新技术产品知识维度。
优选的,步骤2中构建电网运维知识体系具体包括:步骤2.1,在当前维度下,采用谱聚类算法构建当前维度的电网运维知识体系,其中,每一个聚类中的最具影响力节点为电网运维知识体系的一级标签;步骤2.2,针对每个一级标签下的所有节点,再次采用谱聚类算法获取所有一级标签下的二级标签、所有二级标签下的三级标签;步骤2.3,对于电网运维知识体系中的一级标签数量、二级标签数量、三级标签数量和标签之间的关联关系进行统计。
优选的,步骤2.2中还包括:步骤2.2.1,将每一个一级标签及其下位信息设置为一个电力行业词表、将每一个二级标签及其下位信息设置为当前电力行业词表中的一个词典;步骤2.2.2,选取当前词典,自定义当前词典的上位词和族首词,或者,将当前词典的上位词和族首词分别命名为电网运维知识体系的一级标签和二级标签;步骤2.2.3,自定义当前词典中的一个或多个等同词词条的关键词,或者,将当前词典中的一个或多个等同词词条的关键词命名为三级标签,并将关键词与族首词实现挂接。
优选的,一个或多个等同词词条是基于谱聚类算法获取的一个聚类下的所有节点。
优选的,当前词典的上位词和族首词均采用电力技术类别实现命名;族首词包括交流输变电技术、直流输电技术、配电技术和智能运检技术。
优选的,具有层级关系和分类关系的实体包括具有上位词、族首词和关键词描述的实体。
优选的,电网运维知识体系中节点之间关联关系基于动态图的卷积神经网络和自注意力机制实现。
优选的,基于电力系统中采集的电网内部业务资源和电力员工主动提交的待审知识资源实现电网运维知识图谱的构建后,基于电网外部文献资源实现对于电网运维知识图谱中单个实体的补全、或多个实体的批量补全;在补全后,基于补全前的图谱对于补全后的图谱中实体的属性进行排重。
优选的,获取多个不同维度下的所述电网运维知识体系中所有相关标签,并对标签下的所有实体进行自动聚类;基于自动聚类的聚类结果,对于每一个聚类中的不同实体进行融合,并基于融合结果更新电网运维知识图谱。
优选的,采用相似度算法对基于自动聚类获得的每一个聚类中的所有实体中的任意两个进行相似度计算,以获取不同实体之间的关联程度;相似度算法采用自然语言处理中长短文本相似度算法实现。
本发明第二方面,涉及一种电网运维知识图谱构建系统,系统用于实现本发明第一方面中一种电网运维知识图谱构建方法的步骤。
本发明的有益效果在于,与现有技术相比,本发明中的电网运维知识图谱构建方法,能够将获取到的各类型运维知识语料进行切分以更新电力行业词库,从多个维度实现运维知识体系的构建后,将多个维度的知识体系进行融合,以实现电网运维知识图谱。本发明方法基于自然语言学习中的深度学习算法,采用多层级的谱聚类,实现了海量词条内容的加工、分析与利用,获取了准确全面的电网运维知识图谱,从而实现了知识资源和知识体系的梳理和基于运维知识的共享服务系统、智能化应用等。
附图说明
图1为本发明一种电网运维知识图谱构建方法的步骤示意图;
图2为本发明一种电网运维知识图谱构建方法中对运维知识语料进行切分的示意图;
图3为本发明一种电网运维知识图谱构建方法中构建电网运维知识体系的示意图;
图4为本发明一种电网运维知识图谱构建方法中实体之间关联关系提取模型的示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
本发明的目的在于,采用电网管理平台集成整合电网生产和运维知识资源,建设数字化、结构化、碎片化、知识元化的知识中心。通过构建知识库、集成多个数据系统,可以将知识管理和知识服务深入到员工、各分子公司、科研院所中的各项业务工作、科学研究、员工学习及创新工作中。通过汇聚和沉淀各类业务数据和企业内部文档资料,可以实现隐形知识的获取和知识的资产化。
图1为本发明一种电网运维知识图谱构建方法的步骤示意图。如图1所示,本发明中一种电网运维知识图谱构建方法,其中,方法包括步骤1至步骤3。
步骤1,选取运维知识语料进行切分后,实现电力行业词库的更新。
首先,本发明中可以采用知识图谱工具来构建电力系统的主题词典、知识体系、结构化数据、非就够化数据,同时实现对于知识图谱的优化、展示和知识推理。
本发明中,为了构建知识图谱,首先需要对于运维知识语料进行采集。本发明中的运维知识语料可以来自于电力系统中的各类数据库。例如,本发明中可以将各类知识资源汇聚在一起,构建统一存储、管理和服务的知识大仓储。本发明中所采用的系统可以根据知识源的特点分别采用不同的整合方式,支撑对知识进行录入、审核、发布、修改、删除等操作的全生命周期管理,从而将公司各业务系统中的数据资源、研究院内部各部门及源供个人电脑中存储的文档资料以及外采的第三方资源统一整合,将原始数据迁移到知识仓库进行统一管理和服务。
优选的,步骤1中,运维知识预料包括从电力系统中采集的电网内部业务资源、从外部数据库中提取的电网外部文献资源和电力员工主动提交的待审知识资源。
本发明中,将原始数据统一整合后,数据管理员能够灵活的配置知识审核流程,构建知识仓库,解决存量资源的批量整合和后续各类知识资源的可持续更新。
本发明一种方法中,电力员工作为普通用户可以自主的将手中积累的知识、资料等进行上传提交。上传时,可以根据不同共享资料库分别将资料提交到文档库、图片库、视频库、音频库、其他库以及各业务知识库中,并同时能够支持元数据管理和全文数字对象管理。作为管理员等有权限的用户,还可对知识仓库进行配置、建立、编辑、启用、停用、删除等操作。
本发明中,还可以包括知识结构化工具,用来对于原始提交到知识库的内容进行加工和规范。其中,知识结构化工具可以包括多个功能模块,例如多源数据融合、模型管理、数据预处理、知识简报等。通过这一工具,可以对原始知识进行简单的预处理,以获取相应的运维知识语料。
本发明中,系统可以支持根据后台权限设置,对普通用户上传提交的知识进行审核管理。不同的知识库可以根据角色、用户分配不同的操作和审核权限。只有经过审核过的资料才可以作为知识库中的相关语料。
优选的,电力行业词库中包括电力设备名词、电力技术名词、电力专业术语;电力行业词库中还包括名词和术语之间的关联关系信息,其中,关联关系包括上下位关系、同义关系、相关关系。
本发明中,电力行业词库可以是根据电力行业内部多年积累而形成的技术词库。该词库中可以包括电力行业内部的各种知识信息,例如电力设备名词、电力技术名词、电力专业术语等信息。除了各类知识信息的词汇本身之外,词库中还可以包括词汇之间的关联关系,例如,上下位关系、同义关系、相关关系等等。本发明中,还可以包括多种现有技术中曾经使用过的关系类型。
本发明中所指出的上下位关系可以如后文中所提及的一种较大的技术名称下的较小的技术分支名称,或者是后文中所提及的一级标签与其下属的二级标签、二级标签与其所下属的三级标签之间的关系。
另外,同义关系可以表征哪些具有完全相同含义的不同词条之间的关系。例如,后文中提及了当前词典中的一个或多个等同词词条,这些词条之间就具备同义关系。
第三,相关关系可以用于表征任意两个实体之间的关联程度,例如,后文中提及的采用相似度算法计算任意两个实体之间的关联程度,那么这两个实体之间的关系应当至少为相关关系。关联程度,则可以表示这种相关关系的远近程度。
本发明中,通过电力行业词库,可以对任意一个语料进行切分。例如,本发明一实施例中,可以采用分词引擎对文本类数据进行切分,切分后的语料中可以包括多个电力行业词库中已经存在的词条,同时也可以包括电力行业词库中尚未存在的词条。
优选的,采用分词引擎,以电力行业词库中的名词和术语为参考,对运维知识语料进行切分;切分的结果中包括切分词内容、切分词频率。
图2为本发明一种电网运维知识图谱构建方法中对运维知识语料进行切分的示意图。如图2所示,经过切分后,语料可以生成多个切分词,该切分词出现的频率可以被本发明中的分词引擎记录下来,从而用于后续步骤中对于语料的分析。例如,该词频数据可以作为该词条所对应的实体的一个属性,为知识图谱的构建增加内容。
优选的,基于运维知识语料中的切分词内容获取电力行业词库中最接近的词典;基于切分词内容与最接近的词典的匹配发现新词。
本发明中,由于电力行业词库中词条的内容过于庞大,为了方便管理,可以将电力行业词库具体实现为多个词典。例如,某个词典中只包括与特高压变压器相关的技术词条,而另一个词典中则可以包括其他中设备相关的词条。
语料经过切分后,获得的多个切分词,可以通过相似度算法、或者是语料本身的来源来寻找到与之最为接近的词典。在该词典下,将切分词与词典中的每个现有词条进行对比,本发明中当前词典的所有词条也称为登录词,对比后可以发现,登录词中尚未存在的新词。
本发明后续步骤中,不仅可以基于大量的语料进行初始电网运维知识图谱的构建,还可以根据新增的语料中出现的新词,来对于运维知识图谱进行升级更新。上述两部分内容均在步骤2和步骤3中进行说明。
步骤2,以电力行业词库中的电力行业技术名称、公司名称、专家名称、设备名称作为实体,具有层级关系和分类关系的实体作为标签从多维度构建电网运维知识体系。
本发明中采用了知识图谱的构建来实现对于海量知识的应用。具体来说,现有技术中的知识图谱通常可以包括知识体系、标签、实体、属性和关系五种结构的定义。其中,知识体系是知识图谱的框架,标签、实体、属性和关系则构成了知识图谱。标签、实体、属性可以以节点的形式存在,而关系和属性名则可以是节点之间的连线。通过这种方式,可以将知识图谱可视化的显示出来。另外,标签,通常可以用来当作实体的一种特殊属性。
优选的,当实体为专家名称时,属性包括性别、年龄、职位;当实体为设备名称时,属性包括设备质量、设备产地、设备厂商。
本发明中,可以将电力行业技术名称、公司名称、专家名称、设备名称等不同内容作为实体,来构建图谱。对于不同的实体,其包含的属性内容也各不相同,例如,当实体为专家名称时,属性就可以包括性别、年龄和职位等与该专家相关的属性,而当实体为设备名称时,则属性就可以包括设备的各类参数、质量、产地、生产厂家等信息了。
本发明中,可以采用多种不同的方式来实现实体维度的构建。例如,本发明中选取了多个不同的应用维度,并基于具体应用场景下所需要的数据内容,对于每个维度需要用到的词条优先进行提取后,针对提取后的所有词条再实现电网运维知识体系的构建。通过这种方式,则可以构建出多个基于不同维度的电网运维知识体系了。
优选的,多维度包括电网生产案例维度、重大事故事件维度、电网制度维度、电网报告成果维度、电网设备管理情报维度和电网新技术产品知识维度。
本发明一个实施例中,可以以数据内容上来实现数据维度上的多维度划分。类似的,本发明中还可以从业务角度来实现语料的划分。如果是从业务角度来划分,则可以将语料分为电力专家、电力机构和电力文献等不同的维度。
无论是哪种维度的划分方式,都可以对大量的语料进行有效的处理和知识图谱的实现。
优选的,步骤2中构建电网运维知识体系具体包括:步骤2.1,在当前维度下,采用谱聚类算法构建当前维度的电网运维知识体系,其中,每一个聚类中的最具影响力节点为电网运维知识体系的一级标签;步骤2.2,针对每个一级标签下的所有节点,再次采用谱聚类算法获取所有一级标签下的二级标签、所有二级标签下的三级标签;步骤2.3,对于电网运维知识体系中的一级标签数量、二级标签数量、三级标签数量和标签之间的关联关系进行统计。
图3为本发明一种电网运维知识图谱构建方法中构建电网运维知识体系的示意图。如图3所示,知识体系是对于知识进行整理归纳而形成的知识框架。从多个维度对知识体系进行归纳整理,可以通过层级关系思维导通的形式将知识展示出来。作为构建知识图谱的框架,多个不同维度的知识体系中的数据之间也会存在包含、交叉等的关联关系。
本发明中的知识体系可以采用多种不同的方式获取,例如自上而下的知识体系中,可以通过手动方式添加根标签,下级标签则可以通过手动添加或者数据库单表中的列名进行导入。对于结构化数据来说,可以在导入标签时记录导入数据的来源以便知识图谱的生成。而对于非结构化数据来说,标签可以与实体识别模型进行关联,用于非结构化数据的抽取。
另外,除了自上而下的知识体系之外,本发明还可以采用自下而上的知识体系。区别于自下而上的知识体系中通常通过人为设置的方式实现知识体系中标签和标签之间关系的构建,本发明中还可以基于智能算法来实现自下而上的实体聚类,从而通过计算机运算自动获得知识体系。
为了实现图谱的构建,本发明可以对标签首先进行提取。本发明中标签的提取方式是基于谱聚类算法获得的。当然,也可以采用现有技术中其他类型的算法以实现标签。
本发明中,可以首先选择一个维度,并针对这一个维度来提取相关的词条。在提取完与当前维度相关的所有词条后,则可以采用谱聚类算法来对于电网运维知识体系进行构建了。
本发明中,第一次采用聚类算法可以对当前维度相关的所有词条进行聚类。通过这一聚类方式,可以自动设置或者人为设置聚类的数量,并获取相应数量的聚类。其中每一个聚类中,最具影响力的实体就可以被增加标签属性,并称为一级标签。本发明一实施例中,该标签的名称与该实体的名称默认相同。但是,为了对于图谱进行更加准确的解读,该标签的名称也可以人为修改。
在实现了第一次聚类的多个第一标签的结果后,本发明可以针对第一次聚类中每一个类中的所有词条,实现二次聚类。二次聚类的方法类似,能够获得二级标签。类似的,还可以获得三级标签。
容易发现的是,一级标签、二级标签和三级标签之间是层级关系。且每个一级标签下应当包含一个或多个二级标签,每个二级标签下应当包含一个或多个三级标签。
本发明中,通过多次谱聚类算法,就可以准确的获得多个三层次的标签,以及标签之间的关联关系了。本发明中的方法,在获得标签后,还可以对多个标签的数量和关联关系进行统计,以获取知识体系的基本情况。
优选的,步骤2.2中还包括:步骤2.2.1,将每一个一级标签及其下位信息设置为一个电力行业词表、将每一个二级标签及其下位信息设置为当前电力行业词表中的一个词典;步骤2.2.2,选取当前词典,自定义当前词典的上位词和族首词,或者,将当前词典的上位词和族首词分别命名为电网运维知识体系的一级标签和二级标签;步骤2.2.3,自定义当前词典中的一个或多个等同词词条的关键词,或者,将当前词典中的一个或多个等同词词条的关键词命名为三级标签,并将关键词与族首词实现挂接。
本发明中,通过知识体系获取到的所有词条及其相关信息后,可以根据每个一级标签来构建一个电力行业词表。该此表与上文中所述的电力行业词库有所不同,该此表中,不仅记载了相关的词条信息,还包括多个词条之间的关联关系。本发明一实施例中,这种关联关系可以包括链入和链出两个方向。例如,某个设备的生产商为上海电机厂,则设备与上海电机厂两个实体之间的链入关系可以为生产,链出关系可以为生产商。
另外,每一个电力行业词表下,还可以包括一个或多个词典,该词典则对应于二级标签。本发明中,在进行首次的知识图谱构建完成后,就可以将电力行业词表和词典中的相关信息进行简单的存储,并待后续过程中的使用。具体来说,词典和词表中可以包括实体列表,也可以包括最为简单、基础的实体关联,从而使得本发明的方法迭代的实现对于新词的发现。
本发明中的每个词典都包括一个上位词、一个族首词和多个关键词。每个关键词下都包括多个具有等同关系的实体词条。
优选的,一个或多个等同词词条是基于谱聚类算法获取的一个聚类下的所有节点。
本发明中,等同词的获取是在第三次聚类的过程中处于同一个类别下的所有的词条。
优选的,当前词典的上位词和族首词均采用电力技术类别实现命名;族首词包括交流输变电技术、直流输电技术、配电技术和智能运检技术。
本发明一实施例中,词典的命名可以为多个不同的电力技术子分支来实现,上位词则可以是一个更为笼统的技术的名称,对应于一个电力行业词表。本发明中,所有维度下的电力行业词表中所有的词条则组成了上文中的电力行业词库。
优选的,具有层级关系和分类关系的实体包括具有上位词、族首词和关键词描述的实体。
换言之,本发明中,为了实现知识体系框架的生成,以实现后续步骤中知识图谱的建设,步骤2中抽取的作为标签的实体实际上就是上位词、族首词和关键词。
本发明一实施例中,上位词和族首词的默认命名方式为最具影响力的实体名称,而关键词的命名方式则可以包括该类别下最具影响力的前五个实体的名称。
步骤3,将多维度中的每一个维度作为一个体系标签,基于多维度的电网运维知识体系构建数据立方体形式的电网运维知识图谱。
本发明中,除了上文中所述的三层标签之外,还可以针对当前的维度生成一个体系标签,也就是说,对于该维度对应的体系来说,其具有唯一的一个标签。且其具有下属的一级标签、二级标签和三级标签。对于所有的维度局生成一个知识体系,并将多个知识体系进行聚合,最终就可以获得包含多个维度相关信息的电网运维知识图谱了。
优选的,电网运维知识体系中节点之间关联关系基于动态图的卷积神经网络和自注意力机制实现。
图4为本发明一种电网运维知识图谱构建方法中实体之间关联关系提取模型的示意图。需要说明的是,本发明中,知识图谱可以在已有的知识体系下进行填充,具体来说,可以采用先有技术中常用的关联关系提取模型实现填充。本发明中,可以采用DGCNN(DynamicGraph CNN,Dynamic Graph Convolutional Neural Networks,动态图卷积神经网络)和自注意力机制来实现。
优选的,基于电力系统中采集的电网内部业务资源和电力员工主动提交的待审知识资源实现电网运维知识图谱的构建后,基于电网外部文献资源实现对于电网运维知识图谱中单个实体的补全、或多个实体的批量补全;在补全后,基于补全前的图谱对于补全后的图谱中实体的属性进行排重。
在知识图谱第一次生成的过程中,通过上述方式获得的两个实体之间的关联关系,可以通过选择相应词典中的词条实体来实现添加。但是,如果是后续对知识图谱的更新过程,则需要判断该图谱是否属于旧有的图谱中已经存在的关联关系,如果是则无需再次添加。在生成了初始的知识图谱后,后续对于增加的语料进行补充的过程就是本文中所述的补全。
本发明中对于知识图谱的优化方式可以不仅包括知识图谱的补全,还可以包括知识融合、知识关联和知识溯源等等。
如上文所述,一方面,由于人工构建的知识图谱数据量过少,并不足以支持大数据量的分析挖掘,因此需要对知识图谱进行补充和丰富。另一方面,由于知识补全的目的是从之前积累的数据对于知识图谱进行补充,因此,如果在采用智能算法首次生成知识图谱过程中,为了减少运算量等原因而采用了较少的语料,则在后续过程中,也可以采用补全的方式实现语料的扩充。
本发明一实施例中,就是采用这种方法,首先只是基于电网内部的相关语料进行图谱的初始构建。而后,采用电网外部文献数据实现补全。补全操作具体也可以包括单个实体的补全和批量的补全两种方式。
优选的,获取多个不同维度下的电网运维知识体系中所有相关标签,并对标签下的所有实体进行自动聚类;基于自动聚类的聚类结果,对于每一个聚类中的不同实体进行融合,并基于融合结果更新电网运维知识图谱。
如上文中所述,优化还可以包括知识融合,该方法可以对于不同来源的知识在同一个框架规范下,针对数据质量良莠不齐、不同数据源的知识出现重复、知识之间的关联关系模糊等问题进行数据的整合、消歧、加工、推理验证和更新等多种操作,从而实现对数据的剔粗取精,同时增强实体之间的内部逻辑性,和知识图谱在应用过程中的表达能力。
本发明一实施例中,知识融合需要在知识补全之后进行,通过同时选择两个或更多个词典所对应的局部图谱,可以将分属于不同局部图谱中的实体进行有效的关联。本发明中的局部图谱可以被认为是一个标签下的所有词条和词条关系、词条属性等内容组成的结构化数据信息。本发明中知识融合的过程可以通过自动聚类算法来实现。
优选的,采用相似度算法对基于自动聚类获得的每一个聚类中的所有实体中的任意两个进行相似度计算,以获取不同实体之间的关联程度;相似度算法采用自然语言处理中长短文本相似度算法实现。
由于上文中的知识融合方法中已经获取了多个处于不同标签下的实体之间的交互关系,本发明中则可以进一步的在知识融合情况下实现知识关联。也就是说,根据知识融合过程中获得的每一个交互关系,知识关联可以计算这两个实体之间的关联程度。本发明中的相似度算法还可以设置一个阈值,当相似度大于阈值时,则可以实现两个实体之间的自动关联。
另外,本发明中还可以针对非结构化数据进行知识溯源,例如在挖掘实体关系和属性时,保留该语段的来源文献或工具书信息。相关的信息可以包括文献被引用次数、下载次数、点击量、作者级别、机构级别等。根据上述信息,本发明中,就可以对于知识的置信度进行有效的评价和合理的知识推荐。本发明中,这些溯源信息可以以实体的形式记录下来。
本发明中,在构建完电网运维知识图谱后,则可以采用各种方式来对于图谱内容进行利用。本发明中,可以采用散点图、时序图的方式实现知识图谱的可视化,从而更加直观的展现相关数据。例如,通过时序图,可以展示数据随事件推移而产生的变化,从而获得理念电网报告成果的数量、方向和种类信息,又或者是获得历年电力重大事故信息等。
另外,本发明中可以通过构建推理对象、编辑推理规则和逻辑推理来实现图谱的应用。例如,可以将图谱应用于变压器的故障诊断、电力设备维修和电力故障诊断等方面。知识图谱的优势在于能够清晰的展现推理过程。
除此之外,知识图谱也可以用于电力系统中的个人知识管理、知识搜索、知识问答、知识评价、知识推荐、知识统计、专家知识网络、智能简报等多种知识管理应用功能。通过这些功能,可以形成知识应用的循环,从而更加有效的促进知识在各个业务中的利用。
进一步的,本发明中的方法还可以通过大数据画像实现精准的岗位知识、业务知识和项目知识的推送,通过构建岗位知识地图、项目知识地图、业务知识地图等建立精准服务的知识包,实现知识管理与业务的融合,促进业务发展。
例如,当知识图谱应用于岗位知识地图时,本发明中的方法可以直观的向用户展示知识概况、主题类别、所在位置和关联关系等等。用户可以了解在什么地方能够找到相应的知识内容。通过导航图的方式,方法还可以提供展示岗位或业务操作知道等各个知识集中的具体内容,使得无序的知识信息以有序的面貌呈现在用户面前,提升知识的利用率。另外,知识地图也可以用作一种评估机构对于知识资产现状的了解手段,从而了解可利用的知识,发现需要填补的空白技术和工具,同时也能够有效的防止知识的重复生产。知识地图还可以具有工作和角色导航功能,从而辅助新源供或者是重新分配工作的员工有效的参与到培训中。员工在使用知识地图的过程中,能够清晰的明确个人职责,寻找到有用的资源,了解组织架构和实际运作情况,并及时的获取经验丰富的专家所积累的知识的指导。
本发明第二方面,涉及一种电网运维知识图谱构建系统,其中,系统采用如本发明第一方面中所述的一种电网运维知识图谱构建方法实现。
本发明中,可以基于电力系统中已有的电网管理平台,集成整合电网生产和运维知识资源,建设数字化、结构化、碎片化、知识元化的知识中心。本发明一个实施例中,系统可以采用微服务架构,构建知识库总线和知识中泰,集成多个已有系统。
本发明系统中能够同时提供知识库构建工具、数据结构化处理工具、知识图谱构建工具,从而综合的实现各类资源的整合。通过对于设备标准等重点资源进行指标化,还能够使得知识管理更加具有针对性地与业务场景相结合。另外,系统还可以采用Neo4j图数据库来对于获取的知识图谱进行存储。
本发明的有益效果在于,与现有技术相比,本发明中的电网运维知识图谱构建方法,能够将获取到的各类型运维知识语料进行切分以更新电力行业词库,从多个维度实现运维知识体系的构建后,将多个维度的知识体系进行融合,以实现电网运维知识图谱。本发明方法基于自然语言学习中的深度学习算法,采用多层级的谱聚类,实现了海量词条内容的加工、分析与利用,获取了准确全面的电网运维知识图谱,从而实现了知识资源和知识体系的梳理和基于运维知识的共享服务系统、智能化应用等。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (17)
1.一种电网运维知识图谱构建方法,其特征在于,所述方法包括以下步骤:
步骤1,选取运维知识语料进行切分后,实现电力行业词库的更新;
步骤2,以所述电力行业词库中的电力行业技术名称、公司名称、专家名称、设备名称作为实体,具有层级关系和分类关系的实体作为标签从多维度构建所述电网运维知识体系;
步骤3,将所述多维度中的每一个维度作为一个体系标签,基于多维度的所述电网运维知识体系构建数据立方体形式的电网运维知识图谱。
2.根据权利要求1中所述的一种电网运维知识图谱构建方法,其特征在于:
所述步骤1中,运维知识预料包括从电力系统中采集的电网内部业务资源、从外部数据库中提取的电网外部文献资源和电力员工主动提交的待审知识资源。
3.根据权利要求2中所述的一种电网运维知识图谱构建方法,其特征在于:
所述电力行业词库中包括电力设备名词、电力技术名词、电力专业术语;
所述电力行业词库中还包括所述名词和所述术语之间的关联关系信息,其中,所述关联关系包括上下位关系、同义关系、相关关系。
4.根据权利要求3中所述的一种电网运维知识图谱构建方法,其特征在于:
采用分词引擎,以所述电力行业词库中的所述名词和所述术语为参考,对所述运维知识语料进行切分;
所述切分的结果中包括切分词内容、切分词频率。
5.根据权利要求4中所述的一种电网运维知识图谱构建方法,其特征在于:
基于所述运维知识语料中的切分词内容获取电力行业词库中最接近的词典;
基于所述切分词内容与所述最接近的词典的匹配发现新词。
6.根据权利要求5中所述的一种电网运维知识图谱构建方法,其特征在于:
当所述实体为专家名称时,所述属性包括性别、年龄、职位;
当所述实体为设备名称时,所述属性包括设备质量、设备产地、设备厂商。
7.根据权利要求6中所述的一种电网运维知识图谱构建方法,其特征在于:
所述多维度包括电网生产案例维度、重大事故事件维度、电网制度维度、电网报告成果维度、电网设备管理情报维度和电网新技术产品知识维度。
8.根据权利要求7中所述的一种电网运维知识图谱构建方法,其特征在于:
所述步骤2中构建所述电网运维知识体系具体包括:
步骤2.1,在当前维度下,采用谱聚类算法构建所述当前维度的所述电网运维知识体系,其中,每一个聚类中的最具影响力节点为所述电网运维知识体系的一级标签;
步骤2.2,针对每个一级标签下的所有节点,再次采用谱聚类算法获取所有一级标签下的二级标签、所有二级标签下的三级标签;
步骤2.3,对于所述电网运维知识体系中的一级标签数量、二级标签数量、三级标签数量和标签之间的关联关系进行统计。
9.根据权利要求8中所述的一种电网运维知识图谱构建方法,其特征在于:
所述步骤2.2中还包括:
步骤2.2.1,将每一个一级标签及其下位信息设置为一个电力行业词表、将每一个二级标签及其下位信息设置为当前电力行业词表中的一个词典;
步骤2.2.2,选取当前词典,自定义所述当前词典的上位词和族首词,或者,将所述当前词典的上位词和族首词分别命名为所述电网运维知识体系的一级标签和二级标签;
步骤2.2.3,自定义所述当前词典中的一个或多个等同词词条的关键词,或者,将所述当前词典中的一个或多个等同词词条的关键词命名为所述三级标签,并将所述关键词与所述族首词实现挂接。
10.根据权利要求9中所述的一种电网运维知识图谱构建方法,其特征在于:
所述一个或多个等同词词条是基于所述谱聚类算法获取的一个聚类下的所有节点。
11.根据权利要求10中所述的一种电网运维知识图谱构建方法,其特征在于:
所述当前词典的上位词和族首词均采用电力技术类别实现命名;
所述族首词包括交流输变电技术、直流输电技术、配电技术和智能运检技术。
12.根据权利要求11中所述的一种电网运维知识图谱构建方法,其特征在于:
所述具有层级关系和分类关系的实体包括具有上位词、族首词和关键词描述的实体。
13.根据权利要求12中所述的一种电网运维知识图谱构建方法,其特征在于:
所述电网运维知识体系中节点之间关联关系基于动态图的卷积神经网络和自注意力机制实现。
14.根据权利要求13中所述的一种电网运维知识图谱构建方法,其特征在于:
基于所述电力系统中采集的电网内部业务资源和电力员工主动提交的待审知识资源实现所述电网运维知识图谱的构建后,基于电网外部文献资源实现对于所述电网运维知识图谱中单个实体的补全、或多个实体的批量补全;
在补全后,基于补全前的所述图谱对于补全后的所述图谱中实体的属性进行排重。
15.根据权利要求14中所述的一种电网运维知识图谱构建方法,其特征在于:
获取多个不同维度下的所述电网运维知识体系中所有相关标签,并对所述标签下的所有实体进行自动聚类;
基于所述自动聚类的聚类结果,对于每一个聚类中的不同实体进行融合,并基于融合结果更新所述电网运维知识图谱。
16.根据权利要求15中所述的一种电网运维知识图谱构建方法,其特征在于:
采用相似度算法对基于所述自动聚类获得的所述每一个聚类中的所有实体中的任意两个进行相似度计算,以获取不同实体之间的关联程度;
所述相似度算法采用自然语言处理中长短文本相似度算法实现。
17.一种电网运维知识图谱构建系统,其特征在于:
所述系统用于实现如权利要求1-16任意一项中所述的一种电网运维知识图谱构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211395942.5A CN115759253A (zh) | 2022-11-08 | 2022-11-08 | 电网运维知识图谱构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211395942.5A CN115759253A (zh) | 2022-11-08 | 2022-11-08 | 电网运维知识图谱构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115759253A true CN115759253A (zh) | 2023-03-07 |
Family
ID=85368424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211395942.5A Pending CN115759253A (zh) | 2022-11-08 | 2022-11-08 | 电网运维知识图谱构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115759253A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743601A (zh) * | 2024-02-05 | 2024-03-22 | 中南大学 | 一种自然资源知识图谱补全方法、装置、设备及介质 |
-
2022
- 2022-11-08 CN CN202211395942.5A patent/CN115759253A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743601A (zh) * | 2024-02-05 | 2024-03-22 | 中南大学 | 一种自然资源知识图谱补全方法、装置、设备及介质 |
CN117743601B (zh) * | 2024-02-05 | 2024-05-17 | 中南大学 | 一种自然资源知识图谱补全方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN104318340B (zh) | 基于文本履历信息的信息可视化方法及智能可视分析系统 | |
CN112612902A (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
CN111488465A (zh) | 一种知识图谱构建方法及相关装置 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
US20180018355A1 (en) | Automated Monitoring and Archiving System and Method | |
CN112328794B (zh) | 台风事件信息聚合方法 | |
CN116361487A (zh) | 一种多源异构政策知识图谱构建和存储方法及系统 | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN113918725A (zh) | 一种水务领域知识图谱的构建方法 | |
Zhang | Application of data mining technology in digital library. | |
CN115757810A (zh) | 一种知识图谱标准本体构建方法 | |
CN113656647A (zh) | 一种面向智能运维的工程档案数据管理平台、方法及系统 | |
CN115438199A (zh) | 一种基于智慧城市场景数据中台技术的知识平台系统 | |
CN114996549A (zh) | 基于活动对象信息挖掘的智能追踪方法与系统 | |
CN115759253A (zh) | 电网运维知识图谱构建方法及系统 | |
CN115033705A (zh) | 电网调控风险预警信息知识图谱设计方法及系统 | |
CN117875412A (zh) | 一种基于知识图谱构建计算机教育知识图谱的方法 | |
CN116467291A (zh) | 一种知识图谱存储与搜索方法及系统 | |
CN115937881A (zh) | 一种知识图谱构建标准表格内容自动识别方法 | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
Chen et al. | Research on Data Analysis and Visualization of Recruitment Positions Based on Text Mining | |
Zhang et al. | A text mining based method for policy recommendation | |
Awangga et al. | Ontology design based on data family planning field officer using OWL and RDF |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |