CN117194668A - 知识图谱构建方法、装置、设备及存储介质 - Google Patents

知识图谱构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117194668A
CN117194668A CN202210627677.2A CN202210627677A CN117194668A CN 117194668 A CN117194668 A CN 117194668A CN 202210627677 A CN202210627677 A CN 202210627677A CN 117194668 A CN117194668 A CN 117194668A
Authority
CN
China
Prior art keywords
maintenance
knowledge graph
data
entity
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210627677.2A
Other languages
English (en)
Inventor
郑璐璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202210627677.2A priority Critical patent/CN117194668A/zh
Publication of CN117194668A publication Critical patent/CN117194668A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识图谱构建方法、装置、设备及存储介质,该知识图谱构建方法包括:确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对静态数据进行实体提取和关系提取处理,得到运维实体和运维实体之间的关联关系,以构建基础运维知识图谱;获取运维信息系统处于运行状态产生的动态数据,基于动态数据对基础运维知识图谱进行补充,得到目标运维知识图谱。本申请以初步搭建基础运维知识图谱为先,基于运维信息系统运行时不断产生的动态数据对基础运维知识图谱不断优化补充为后的方式,构建运维知识图谱,具有较强逻辑性,解决了数据对齐效率低且实体重复性高的问题,且实现资源对象管理更加完备、全面。

Description

知识图谱构建方法、装置、设备及存储介质
技术领域
本申请涉及IT应用技术领域,尤其涉及一种知识图谱构建方法、装置、设备及存储介质。
背景技术
随着IT技术的不断发展,运维信息化得到了越来越多人的重视,针对复杂架构下,全局企业系统的运维信息的资源对象管理分散问题,目前的解决手段是通过构建知识图谱,但是,现有的知识图谱的构建方式通常是对知识数据对应的结构化数据进行知识抽取,得到与知识数据集合对应的实体以及实体关系数据,在对实体以及实体关系进行知识融合,获得知识图谱。在此过程中,知识数据保存分散,相对的图谱构建对齐难度大,容易出现实体对齐效率低,实体重复性高的问题。
发明内容
本申请的主要目的在于提供一种知识图谱构建方法、装置、设备及存储介质,旨在解决现有的知识图谱构建过程中由于数据对齐效率低,导致的实体重复性高的技术问题。
为实现上述目的,本申请提供一种知识图谱构建方法,所述方法包括:
确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱;
获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱。
示例性的,所述静态资源包括资源管理数据、历史告警/故障数据,所述确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱,包括:
获取所述资源管理数据,提取所述资源管理数据中的第一实体和所述第一实体对应的第一关联关系;
基于知识图谱技术,以及所述第一实体和所述第一关联关系,构建初始运维知识图谱;
获取所述历史告警/故障数据,对所述历史告警/故障数据及进行关联分析,得到第二实体和第二关联关系;
基于所述第二实体和和所述第二关联关系对所述初始运维知识图谱进行初次补充,得到基础运维知识图谱。
示例性的,所述获取所述历史告警/故障数据,对所述历史告警/故障数据及进行关联分析,得到第二实体和第二关联关系,包括:
获取所述历史告警/故障数据,采用聚类算法对所述历史告警/故障数据进行聚类处理,形成至少一个告警项集;
基于关联挖掘算法对所述至少一个告警项集进行挖掘,得到告警/故障关联规则;
对所述告警/故障关联规则进行泛化处理,得到所述第二实体和所述第二关联关系。
示例性的,所述基于所述第二实体和和所述第二关联关系对所述初始运维知识图谱进行初次补充,得到基础运维知识图谱,包括:
将所述第二实体与所述第二关联关系与所述初始知识图谱进行匹配,得到新对象和新对象关系;
将所述新对象和所述新对象关系补充至所述初始知识图谱中,形成基础运维知识图谱。
示例性的,所述动态数据包括调用链/网络拓扑数据、实时日志数据,所述获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱,包括:
根据自动发现技术,获取运维信息系统的微服务处于运行状态时产生的调用链数据,所述调用链数据包括调用实体和调用链关系;或,
根据自动发现技术,获取运维信息系统处于运行状态时网络节点连接的网络拓扑数据,所述网络拓扑数据包括拓扑关系和拓扑实体;或,
获取运维信息系统处于运行状态产生的实时日志数据;
提取所述动态数据的三元组;
根据所述三元组对所述基础运维知识图谱进行补充,得到目标运维知识图谱。
示例性的,所述动态数据为所述实时日志数据时,所述基于所述动态数据,形成三元组,包括:
对所述实时日志数据进行语义分析,将所述实时日志数据进行分类,得到至少一个类型的实时日志;
对所述实时日志进行聚类处理,形成日志模板;
基于所述日志模板,对提取新的实时日志数据的关键词和词关系,形成三元组。
示例性的,所述获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱之后,包括:
将所述动态数据存储于资源管理数据库中,作为所述资源管理数据,以实时更新所述目标运维知识图谱。
示例性的,为实现上述目的,本申请还提供一种知识图谱构建装置,所述知识图谱构建装置包括:
图谱构建模块,用于确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱;
图谱补充模块,用于获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱。
示例性的,为实现上述目的,本申请还提供一种知识图谱构建设备,所述知识图谱构建设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的知识图谱构建程序,所述知识图谱构建程序被处理器执行时实现如上所述的知识图谱构建方法的步骤。
示例性的,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有知识图谱构建程序,所述知识图谱构建程序被处理器执行时实现如上所述的知识图谱构建方法的步骤。
与现有技术中,知识图谱构建过程中由于数据对齐效率低,导致的实体重复性高相比,本申请通过确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱;获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱。可以理解,本申请以初步搭建基础运维知识图谱为先,基于运维信息系统运行时不断产生的动态数据对基础运维知识图谱不断优化补充为后的方式,构建运维知识图谱,具有较强逻辑性,解决了数据对齐效率低且实体重复性高的问题,且为上层支撑多种运维相关的应用和服务,实现资源对象管理更加完备、全面。
附图说明
图1是本申请知识图谱构建方法第一实施例的流程示意图;
图2是本申请知识图谱构建系统示意图;
图3是本申请知识图谱构建方法实施例涉及的关联挖掘算法示意图;
图4是本申请知识图谱构建方法实施例涉及的微服务调用的过程示意图;
图5为本申请知识图谱构建方法实施例涉及的网络拓扑示意图;
图6为本申请知识图谱构建方法实施例涉及的日志解析示意图;
图7是本申请知识图谱构建装置较佳实施例的功能模块示意图;
图8是本申请实施例方案涉及的硬件运行环境的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种知识图谱构建方法,参照图1,图1为本申请知识图谱构建方法的流程示意图。
本申请实施例还提供了知识图谱构建方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。知识图谱构建方法可应用于计算机中,为了便于描述,以下省略执行主体描述知识图谱构建方法的各个步骤,知识图谱构建方法包括:
步骤S110,确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱。
需要说明的是,运维知识图谱是将复杂的知识领域通过数据挖掘、信息处理等形式以可视化图谱形象展示整体的知识架构,可以理解为,运维知识图谱是一种“多关系图”,在关系图中包含“实体”节点,实体具有各类属性,“实体”之间以“联系”进行串联形成一张相互关联的图,在信息的基础上对实体间建立联系,从而形成“知识”。知识图谱尤其适用于实体关系错综复杂且数量庞大的数据管理。
示例性的,针对IT服务使用的信息系统的组件以及组件之间的关系,建立的知识图谱为配置管理数据库运维知识图谱,也即CMDB(Configuration Management Database,配置管理数据库)运维知识图谱,其中,配置管理数据库是组织IT基础结构中配置项及其关系的逻辑数据库,主要包含配置项全生命周期的信息及配置项之间的关系,包括物理关系、实时通信关系、非实时通信关系和依赖关系等。
示例性的,参照图2,图2为知识图谱构建系统,所述知识图谱构建系统中包括数据获取模块、CMDB关联拓扑梳理模块、运维知识图谱构建模块、CMDB管理应用模块,其中,数据获取模块:构建运维CMDB资源管理的运维知识图谱的基础,主要通过资源管理平台接口数据导入、历史告警/故障数据导入、调用链及网络拓扑等自动发现链路、实时日志数据解析等四种方式获得CMDB的资源实体及关系。
CMDB关联拓扑梳理模块:对从资源管理平台接口导入的资源管理数据进行实体提取和关系提取;对历史告警/故障数据进行聚类分析,识别新对象和新关系;依据微服务调用链自动发现、网络拓扑自动发现等技术进行服务调用关系、网络拓扑关系进行识别;依据日志解析、文本聚类、关键词提取等技术进行新变量、新关系的发现,从而实现CMDB关联关系的补全。
运维知识图谱构建模块:通过模式设计、本体构建、数据清洗、实体识别、关系识别、数据融合、知识推理、图数据库存储等技术构建知识图谱。其中,模式设计是指运维知识图谱的框架,如运维知识图谱存在的实体类别和关系类别;数据清洗是指从不规整的数据中剔除垃圾数据或非正常数据,例如,根据需求设置数据格式、预留字段等,将历史日志数据中不需要的字段,将其删除或筛出掉,保留符合需求的字段。
CMDB管理应用模块:针对基于多源数据汇聚的CMDB构建的运维知识图谱,可以在全局视角下对运维的资源对象信息、关联关系信息进行管理、模型管理、告警关联展示、故障关联展示等,并有效支撑上层多类运维场景,诸如资源对象及对象关系快速检索、风暴告警关联展示及收敛、故障关联分析及定位等。可以理解,若需要检索某一资源对象,则基于多源数据汇聚的CMDB构建的运维知识图谱,检索某一资源对象,可以展示出某一资源对象对应的关联实体。因此,通过借助知识图谱技术,形成新的数据管理模式,通过图的形式进行复杂资源对象及关系的高效管理,为CMDB管理提供更好的支撑。
获取用于构建运维知识图谱的静态数据,静态数据包括资源管理数据和历史告警/故障数据,对静态数据进行实体提取处理和关系提取处理,得到运维实体和运维实体之间的关联关系,通过对运维实体和关联关系的融合,生成基础运维知识图谱。
示例性的,所述静态资源包括资源管理数据、历史告警/故障数据,
所述确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱,包括:
步骤a,获取所述资源管理数据,提取所述资源管理数据中的第一实体和所述第一实体对应的第一关联关系;
步骤b,基于知识图谱技术,以及所述第一实体和所述第一关联关系,构建初始运维知识图谱;
步骤c,获取所述历史告警/故障数据,对所述历史告警/故障数据及进行关联分析,得到第二实体和第二关联关系;
步骤d,基于所述第二实体和和所述第二关联关系对所述初始运维知识图谱进行初次补充,得到基础运维知识图谱。
所述运维实体包括第一实体和第二实体,关联关系包括第一关联关系和第二关联关系。
当静态数据为资源管理数据时,从资源管理平台获取资源管理数据,其中,资源管理平台是所有企业均存在的存储IT资产及配置信息的数据管理平台,属于相对静态的数据,此类数据以接口进行批量信息导入。提取资源管理数据中的第一实体和第一实体对应的第一关联关系,基于第一实体和第一关联关系构建初始运维知识图谱。
示例性的,从资源管理平台批量导入资源管理数据,通过资源对象提取处理,得到第一实体,通过关联信息提取处理,得到第一关联关系,基于第一实体、第一关联关系和知识图谱搭建技术,构建初始运维知识图谱。具体地,知识图谱搭建技术中依次进行概念设计、本体构建、数据融合、知识推理,并将数据层的非结构化数据转化为CMDB运维相关的图谱实体及关系,生成三元组后,构建初始运维知识图谱。
当静态数据为历史告警/故障数据时,从告警平台或故障平台上批量导入历史的告警数据和故障数据信息,其中,历史告警/故障数据包括告警类别、告警内容、告警发生时间、告警归属资源对象、故障类别、故障描述详情、定位过程信息等。对历史告警/故障数据进行AI(Artificial Intelligence,人工智能)关联分析,得到历史告警/故障数据对应的第二实体和第二实体对应的第二关联关系,基于第二实体和第二关联关系对初始运维图谱进行更新和补充,以得到基础运维知识图谱。
示例性的,所述获取所述历史告警/故障数据,对所述历史告警/故障数据及进行关联分析,得到第二实体和第二关联关系,包括:
步骤c1,获取所述历史告警/故障数据,采用聚类算法对所述历史告警/故障数据进行聚类处理,形成至少一个告警项集;
步骤c2,基于关联挖掘算法对所述至少一个告警项集进行挖掘,得到告警/故障关联规则;
步骤c3,对所述告警/故障关联规则进行泛化处理,得到所述第二实体和所述第二关联关系。
获取历史告警/故障数据,采用DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,是一种密度聚类算法)无监督聚类算法对告警/故障苏数据进行聚类,形成以样本密度聚集的若干个簇,其中,DBSCAN是指一种基于密度的聚类算法,由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个簇,也即告警项集。
通过关联挖掘算法对聚类处理后得到的至少一个告警项集进行关联挖掘,得到告警/故障关联规则。
示例性的,参照图3,关联挖掘算法包括Apriori算法,则通过关联挖掘算法对聚类处理后得到的至少一个告警项集进行关联挖掘,得到告警关联规则的具体过程为:
(1)寻找频繁项集:对所有的项集进行全局遍历,累计每个项集的计数,计算每个告警项集的支持度,将计算后的支持度与支持度阈值进行比较,剔除或过滤掉不满足支持度阈值的告警项集,基于剩余的告警项集进行组合,形成包含两个元素的第二项集,重复遍历,剔除或滤掉不满足支持度阈值的告警项集,重复此过程,直到去掉所有不满足支持度阈值的项集,由此筛选后得到的项集为频繁项集。其中,每个告警项集的支持度是基于常规的支持度计算模型计算得到,在此不做具体限定。
需要说明的是,支持度阈值根据需求设定,满足支持度阈值是指计算出的支持度大于或等于支持度阈值,也即满足支持度阈值的告警项集是满足最小支持度要求的。
(2)根据频繁项集生成告警关联规则:利用频繁项集产生关联规则,确定该频繁项集中所有非空子集,根据各项子集产生关联规则,以此创建一个规则列表,对规则列表中每条规则的可信度进行计算,得到可信度数值,选择满足可信度要求的关联规则,即为告警关联规则。
需要说明的是,可信度要求是指基于当前的关联规则计算出的可信度数值大于或等于可信度阈值。其中,可信度阈值是根据需求设定的,也即满足可信度阈值的关联规则是满足可信度要求的。
通常情况下,支持度大,置信度则越高,关联规则的实用机会就大,此关联规则就越重要;一些关联规则置信度很高,但支持度很低,这说明了支持度和置信度有时候并不一定能准确的反映数据之间的相关性,因此,在确定告警关联规则时,需要对关联规则计算提升度,如果提升度数值大于1,则说明是关联规则中第一规则对第二规则是由提升的,反之则没有提升,保留有提升的关联规则,得到最终的告警关联规则。
需要说明的是,历史故障数据的故障关联规则的具体创建过程与告警关联规则的创建过程基本相同,在此不再赘述。
(3)寻找历史告警数据之间的关联关系:构建二元告警数据的主次关系,依据告警主体所属对象进一步聚合泛化,得到第二实体和第二实体对应的第二关联关系,第二实体和第二关联关系是用于初始知识图谱。其中,确定主次关系的过程,是从规则列表中确定主次告警,主告警向次告警传输数据,主次关系用于在运维知识图谱上设置箭头方向或波及关系,以便在前台页面推荐的时候,可以告知主次关系。
需要说明的是,从规则列表中确定主次告警关系时,可以是人为根据经验确定,也可以是根据时间告警数据的时间安排确定,还可以是根据预先设定的确定规则,自动识别和确定告警主次。
示例性的,所述基于所述新实体和所述新关联关系对所述初始运维知识图谱进行初次补充,得到基础运维知识图谱,包括:
步骤d1,将所述第二实体与所述第二关联关系与所述初始知识图谱进行匹配,得到新对象和新对象关系;
步骤d2,将所述新对象和所述新对象关系补充至所述初始知识图谱中,形成基础运维知识图谱。
将告警关系按照对象泛化结果与现有CMDB拓扑关系数据进行匹配,补全和纠正CMDB拓扑,也即通过泛化后的第二实体和第二实体之间的第二关联关系与初始运维知识图谱进行匹配,实现CMDB实体和关系的融合及新对象、新对象关系的发现和补充。可以理解,将第二实体与第二关联关系与初始运维知识图谱中现有的第一实体和第一关联关系进行匹配,若在初始运维知识图谱中匹配出相应的第一实体和第一关联关系,则表示初始运维知识图谱中已存在该数据;若在初始运维知识图谱中未匹配出相应的第一实体和第一关联关系,则表示初始运维知识图谱中不存在该数据,检查初始运维知识图谱中是否存在错误,如是,则第二实体和第二关联关系用于纠正该错误,若无错误且不存在该数据,则将第二实体和第二关联关系补全至初始运维知识图谱中,以得到基础运维知识图谱。
步骤S120,获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱。
获取运维信息系统处于运行状态时产生的动态数据,动态数据包括调用链/网络拓扑数据、实时日志数据,基于自动化发现手段与基于实时日志的潜在关系挖掘手段,实现动态数据对基础运维知识图谱进行补充,保持知识图谱的可用性,得到目标运维知识图谱。
示例性的,所述动态数据包括调用链/网络拓扑数据、实时日志数据,
所述获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱,包括:
步骤d1,根据自动发现技术,获取运维信息系统的微服务处于运行状态时产生的调用链数据,所述调用链数据包括调用实体和调用链关系;或,
根据自动发现技术,获取运维信息系统处于运行状态时网络节点连接的网络拓扑数据,所述网络拓扑数据包括拓扑关系和拓扑实体;或,
获取运维信息系统处于运行状态产生的实时日志数据;
步骤d2,提取所述动态数据的三元组;
步骤d3,根据所述三元组对所述基础运维知识图谱进行补充,得到目标运维知识图谱。
动态数据包括调用链数据、网络拓扑数据,根据自动发现技术,获取运维信息系统的微服务处于运行状态时产生的调用链数据,根据网络拓扑自动发现技术,获取网络节点连接的拓扑关系,提取调用链数据、网络拓扑数据中的三元组,根据三元组对基础运维知识图谱进行补全,得到目标运维知识图谱。
具体地,针对调用链数据而言,参照图4,图4为微服务调用的过程图,微服务调用链自动发现技术可实现在调用方向系统服务发起请求时,自动生成本次调用过程产生的调用链日志,生成一个全局唯一的trace_Id及相关调用节点的span信息,在首个服务生成全局编码后,会放置到header中,并传递给下级服务。也即,一个请求的所有调用日志信息都要记录一个相同的标识,这样才能把记录关联起来,这个唯一标识可以称为追踪标识(trace_id),由第一个发起的请求生成,并传递到后续的每次调用进行记录。
根据微服务调用链关系,抽取出不同程序之间的调用关系,并根据调用链上一程序主体的识别,形成调用链三元组,从调用链能够得知调用上下游的信息。其中,调用链三元组包括两个实体一个关系,将调用链三元组与基础运维知识图谱进行匹配,以发现新实体和新关系,以补全基础运维知识图谱,得到目标运维知识图谱。
针对网络拓扑数据而言,参照图5,网络拓扑自动发现是一种在网络运行过程中网络设备、路由节点等信息自动发现、自动串联的技术,如通信串和端口配置、轮询发现、单次发现、种子发现、IP地址段发现。其中,路由级拓扑发现算法基于SNMP协议(Simple NetworkManagement Protocol,简单网络管理协议)实现;子网级拓扑发现算法首先利用SNMP协议获取与路由器某接口关联的设备的IP地址,其中,设备的IP地址是通过ARP(AddressResolution Protocol,地址解析协议)地址转换表中获取,ARP地址转换表是在网络跳转的过程中进行记录而生成的。再利用ICMP协议(Internet Control Message Protocol,网际控制报文协议)的ECHO REQUEST/ECHO REPLY命令获得与该接口连接的子网内活动主机,获取主机的IP,由此创建三元组,基于三元组构建关系网,根据三元组对基础运维知识图谱进行补充,得到目标运维知识图谱。基于创建的关系网进行拓扑资源管理,具体为拓扑展现、拓扑维护、拓扑查询、拓扑下钻。
示例性的,所述动态数据为所述实时日志数据时,
所述基于所述动态数据,形成三元组,包括:
步骤d21,对所述实时日志数据进行语义分析,将所述实时日志数据进行分类,得到至少一个类型的实时日志;
步骤d22,对所述实时日志进行聚类处理,形成日志模板;
步骤d23,基于所述日志模板,对提取新的实时日志数据的关键词和词关系,形成三元组。
参照图6,当动态数据为实时日志数据时,从海量日志中自动甄别和解析出配置数据,从海量实时日志的非结构化文本中进行实体抽取和关系识别。具体地,基于实时日志数据文本,通过TextCNN(Text Convolutional Neural Networks,Text卷积神经网络)语义分析技术将实时日志数据进行分类,整体上通过文本聚类,将实时日志数据划分为至少一个类型的实时日志,例如系统日志、中间件日志、业务日志等;其次,针对不同类型的实时日志,分别采用DBSCAN聚类算法形成日志模板;再次,针对提取的日志模板,基于TF-IDF(TermFrequency/Inverse Document Frequency,词频、逆文本频率)算法进行分词处理,构建词向量,提取关键词和关系三元组。通过将提取的实体和关系信息与前期构建的CMDB关联拓扑信息库(构建的日志标签库)进行匹配,可对新变量进行发现,从而对CMDB做到补充和丰富。其中,日志标签库是基于LCS(Longest Common Subsequence,最长公共子序列)算法得到的。
由此,从海量非结构化日志文本中挖掘有效信息并与已梳理的实体和拓扑信息映射,进一步为资源管理的全面性提供补充。
示例性的,所述获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱之后,包括:
步骤e,将所述动态数据存储于资源管理数据库中,作为所述资源管理数据,以实时更新所述目标运维知识图谱。
将动态数据的非结构化数据转化为CMDB运维相关的图谱实体及关系,生成三元组后,将转化后的数据存储于资源管理数据库中,作为资源管理数据,实时更新和优化目标运维知识图谱。
由此,通过增量学习机制,针对源源不断地生产数据进行新实体和关系地分析,可迭代新增到CMDB资源管理库中,促进CMDB资源管理长效运行。
与现有技术中,知识图谱构建过程中由于数据对齐效率低,导致的实体重复性高相比,本申请通过确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱;获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱。可以理解,本申请以初步搭建基础运维知识图谱为先,基于运维信息系统运行时不断产生的动态数据对基础运维知识图谱不断优化补充为后的方式,构建运维知识图谱,具有较强逻辑性,解决了数据对齐效率低且实体重复性高的问题,且为上层支撑多种运维相关的应用和服务,实现资源对象管理更加完备、全面。
示例性的,参照图7,本申请还提供一种知识图谱构建装置,所述知识图谱构建装置包括:
图谱构建模块10,用于确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱;
图谱补充模块20,用于获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱。
和/或,所述图谱构建模块包括:
第一获取子模块,用于获取所述资源管理数据,提取所述资源管理数据中的第一实体和所述第一实体对应的第一关联关系;
构建子模块,用于基于知识图谱技术,以及所述第一实体和所述第一关联关系,构建初始运维知识图谱;
第二获取子模块,用于获取所述历史告警/故障数据,对所述历史告警/故障数据及进行关联分析,得到第二实体和第二关联关系;
第一补充子模块,用于基于所述第二实体和和所述第二关联关系对所述初始运维知识图谱进行初次补充,得到基础运维知识图谱。
和/或,所述第二获取子模块包括:
获取子单元,用于获取所述历史告警/故障数据,采用聚类算法对所述历史告警/故障数据进行聚类处理,形成至少一个告警项集;
挖掘子单元,用于基于关联挖掘算法对所述至少一个告警项集进行挖掘,得到告警/故障关联规则;
泛化处理子单元,用于对所述告警/故障关联规则进行泛化处理,得到所述第二实体和所述第二关联关系。
和/或,所述第一补充子模块包括:
匹配子单元,用于将所述第二实体与所述第二关联关系与所述初始知识图谱进行匹配,得到新对象和新对象关系;
构建子单元,用于将所述新对象和所述新对象关系补充至所述初始知识图谱中,形成基础运维知识图谱。
和/或,所述图谱补充模块包括:
第三获取子模块,用于根据自动发现技术,获取运维信息系统的微服务处于运行状态时产生的调用链数据,所述调用链数据包括调用实体和调用链关系;或,
根据自动发现技术,获取运维信息系统处于运行状态时网络节点连接的网络拓扑数据,所述网络拓扑数据包括拓扑关系和拓扑实体;或,
获取运维信息系统处于运行状态产生的实时日志数据;
提取子模块,用于提取所述动态数据的三元组;
第二补充子模块,用于根据所述三元组对所述基础运维知识图谱进行补充,得到目标运维知识图谱。
和/或,所述提取子模块包括:
分类子单元,用于对所述实时日志数据进行语义分析,将所述实时日志数据进行分类,得到至少一个类型的实时日志;
聚类处理子单元,用于对所述实时日志进行聚类处理,形成日志模板;
提取子单元,用于基于所述日志模板,对提取新的实时日志数据的关键词和词关系,形成三元组。
和/或,所述装置还包括:
更新模块,用于将所述动态数据存储于资源管理数据库中,作为所述资源管理数据,以实时更新所述目标运维知识图谱。
本申请知识图谱构建装置具体实施方式与上述知识图谱构建方法各实施例基本相同,在此不再赘述。
此外,本申请还提供一种知识图谱构建设备。如图8所示,图8是本申请实施例方案涉及的硬件运行环境的结构示意图。
在一种可能的实施方式中,图8即可为知识图谱构建设备的硬件运行环境的结构示意图。
如图8所示,该知识图谱构建设备可以包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701、通信接口702和存储器703通过通信总线704完成相互间的通信,存储器703,用于存放计算机程序;处理器701,用于执行存储器703上所存放的程序时,实现知识图谱构建方法的步骤。
上述知识图谱构建设备提到的通信总线704可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry StandardArchitecture,EISA)总线等。该通信总线704可以分为地址总线、数据总线和控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口702用于上述知识图谱构建设备与其他设备之间的通信。
存储器703可以包括随机存取存储器(Random Access Memory,RMD),也可以包括非易失性存储器(Non-Volatile Memory,NM),例如至少一个磁盘存储器。可选的,存储器703还可以是至少一个位于远离前述处理器701的存储装置。
上述的处理器701可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请知识图谱构建设备具体实施方式与上述知识图谱构建方法各实施例基本相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有知识图谱构建程序,所述知识图谱构建程序被处理器执行时实现如上所述的知识图谱构建方法的步骤。
本申请计算机可读存储介质具体实施方式与上述知识图谱构建方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,设备,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种知识图谱构建方法,其特征在于,所述方法包括:
确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱;
获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱。
2.如权利要求1所述的方法,其特征在于,所述静态资源包括资源管理数据、历史告警/故障数据,
所述确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱,包括:
获取所述资源管理数据,提取所述资源管理数据中的第一实体和所述第一实体对应的第一关联关系;
基于知识图谱技术,以及所述第一实体和所述第一关联关系,构建初始运维知识图谱;
获取所述历史告警/故障数据,对所述历史告警/故障数据及进行关联分析,得到第二实体和第二关联关系;
基于所述第二实体和和所述第二关联关系对所述初始运维知识图谱进行初次补充,得到基础运维知识图谱。
3.如权利要求2所述的方法,其特征在于,所述获取所述历史告警/故障数据,对所述历史告警/故障数据及进行关联分析,得到第二实体和第二关联关系,包括:
获取所述历史告警/故障数据,采用聚类算法对所述历史告警/故障数据进行聚类处理,形成至少一个告警项集;
基于关联挖掘算法对所述至少一个告警项集进行挖掘,得到告警/故障关联规则;
对所述告警/故障关联规则进行泛化处理,得到所述第二实体和所述第二关联关系。
4.如权利要求2所述的方法,其特征在于,所述基于所述第二实体和和所述第二关联关系对所述初始运维知识图谱进行初次补充,得到基础运维知识图谱,包括:
将所述第二实体与所述第二关联关系与所述初始知识图谱进行匹配,得到新对象和新对象关系;
将所述新对象和所述新对象关系补充至所述初始知识图谱中,形成基础运维知识图谱。
5.如权利要求1所述的方法,其特征在于,所述动态数据包括调用链/网络拓扑数据、实时日志数据,
所述获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱,包括:
根据自动发现技术,获取运维信息系统的微服务处于运行状态时产生的调用链数据,所述调用链数据包括调用实体和调用链关系;或,
根据自动发现技术,获取运维信息系统处于运行状态时网络节点连接的网络拓扑数据,所述网络拓扑数据包括拓扑关系和拓扑实体;或,
获取运维信息系统处于运行状态产生的实时日志数据;
提取所述动态数据的三元组;
根据所述三元组对所述基础运维知识图谱进行补充,得到目标运维知识图谱。
6.如权利要求5所述的方法,其特征在于,所述动态数据为所述实时日志数据时,
所述基于所述动态数据,形成三元组,包括:
对所述实时日志数据进行语义分析,将所述实时日志数据进行分类,得到至少一个类型的实时日志;
对所述实时日志进行聚类处理,形成日志模板;
基于所述日志模板,对提取新的实时日志数据的关键词和词关系,形成三元组。
7.如权利要求1所述的方法,其特征在于,所述获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱之后,包括:
将所述动态数据存储于资源管理数据库中,作为所述资源管理数据,以实时更新所述目标运维知识图谱。
8.一种知识图谱构建装置,其特征在于,所述装置包括:
图谱构建模块,用于确定基础运维知识图谱,其中,获取用于构建运维知识图谱的静态数据,对所述静态数据进行实体提取和关系提取处理,得到运维实体和所述运维实体之间的关联关系,以构建所述基础运维知识图谱;
图谱补充模块,用于获取运维信息系统处于运行状态产生的动态数据,基于所述动态数据对所述基础运维知识图谱进行补充,得到目标运维知识图谱。
9.一种知识图谱构建设备,其特征在于,所述知识图谱构建设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的知识图谱构建程序,所述知识图谱构建程序被所述处理器执行时实现如权利要求1至7中任一项所述的知识图谱构建方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有知识图谱构建程序,所述知识图谱构建程序被处理器执行时实现如权利要求1至7中任一项所述的知识图谱构建方法的步骤。
CN202210627677.2A 2022-05-30 2022-05-30 知识图谱构建方法、装置、设备及存储介质 Pending CN117194668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210627677.2A CN117194668A (zh) 2022-05-30 2022-05-30 知识图谱构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210627677.2A CN117194668A (zh) 2022-05-30 2022-05-30 知识图谱构建方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117194668A true CN117194668A (zh) 2023-12-08

Family

ID=88991151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210627677.2A Pending CN117194668A (zh) 2022-05-30 2022-05-30 知识图谱构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117194668A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117494147A (zh) * 2023-12-29 2024-02-02 戎行技术有限公司 基于网络空间行为数据的多平台虚拟用户数据对齐方法
CN118132327A (zh) * 2024-05-07 2024-06-04 东莞巨正源科技有限公司 应用于化塑产业平台的电子商城运行数据分析方法及系统
CN118132327B (zh) * 2024-05-07 2024-07-16 东莞巨正源科技有限公司 应用于化塑产业平台的电子商城运行数据分析方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117494147A (zh) * 2023-12-29 2024-02-02 戎行技术有限公司 基于网络空间行为数据的多平台虚拟用户数据对齐方法
CN117494147B (zh) * 2023-12-29 2024-03-22 戎行技术有限公司 基于网络空间行为数据的多平台虚拟用户数据对齐方法
CN118132327A (zh) * 2024-05-07 2024-06-04 东莞巨正源科技有限公司 应用于化塑产业平台的电子商城运行数据分析方法及系统
CN118132327B (zh) * 2024-05-07 2024-07-16 东莞巨正源科技有限公司 应用于化塑产业平台的电子商城运行数据分析方法及系统

Similar Documents

Publication Publication Date Title
US11853303B1 (en) Data stream generation based on sourcetypes associated with messages
US11238069B2 (en) Transforming a data stream into structured data
US11226975B2 (en) Method and system for implementing machine learning classifications
WO2021052394A1 (zh) 模型训练方法、装置及系统
US11201865B2 (en) Change monitoring and detection for a cloud computing environment
US20150356444A1 (en) Method and system of discovering and analyzing structures of user groups in microblog
CN111597247A (zh) 一种数据异常分析方法、装置及存储介质
US11250166B2 (en) Fingerprint-based configuration typing and classification
US11687438B1 (en) Adaptive thresholding of data streamed to a data processing pipeline
US11568344B2 (en) Systems and methods for automated pattern detection in service tickets
CN111258798A (zh) 监控数据的故障定位方法、装置、计算机设备及存储介质
US20230105304A1 (en) Proactive avoidance of performance issues in computing environments
Solmaz et al. ALACA: A platform for dynamic alarm collection and alert notification in network management systems
CN117194668A (zh) 知识图谱构建方法、装置、设备及存储介质
Dodonov et al. Method of searching for information objects in unified information space
Zhang et al. Incremental graph pattern matching algorithm for big graph data
CN111723122A (zh) 数据间关联规则的确定方法、装置、设备及可读存储介质
CN114548709A (zh) 一种基于贝叶斯网数据赋能企业的智能决策方法及系统
Mijumbi et al. MAYOR: machine learning and analytics for automated operations and recovery
CN112699934A (zh) 一种告警分类方法及装置、电子设备
CN111488490A (zh) 视频聚类方法、装置、服务器及存储介质
CN117389908B (zh) 接口自动化测试用例的依赖关系分析方法、系统及介质
CN114357054B (zh) 一种基于ClickHouse的非结构化数据的处理方法和装置
US11842180B2 (en) Framework for codes as a service management and deployment
US11899553B2 (en) Relevance ranking system for events identified by performance management systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination