CN117785530A - 一种数据智能分析方法及系统 - Google Patents

一种数据智能分析方法及系统 Download PDF

Info

Publication number
CN117785530A
CN117785530A CN202311798317.XA CN202311798317A CN117785530A CN 117785530 A CN117785530 A CN 117785530A CN 202311798317 A CN202311798317 A CN 202311798317A CN 117785530 A CN117785530 A CN 117785530A
Authority
CN
China
Prior art keywords
data
fault
influence
model
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311798317.XA
Other languages
English (en)
Inventor
马威
刘传世
戚威
刘涛
许建皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hua Xia Bank Co Ltd
Original Assignee
Hua Xia Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hua Xia Bank Co Ltd filed Critical Hua Xia Bank Co Ltd
Priority to CN202311798317.XA priority Critical patent/CN117785530A/zh
Publication of CN117785530A publication Critical patent/CN117785530A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据智能分析方法及系统,通过建立跨领域实时的统一运维数据模型;以统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果;基于统一运维数据模型,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析;利用故障定位结果、影响分析、故障相关信息对故障进行画像,得到故障画像。在故障发生时,基于故障定位结果、影响分析、故障相关信息对故障进行画像,故障画像相当于对故障从其根因、处置建议、方案推荐等方面进行的分析,从而能够实现在复杂且跨领域的IT环境下较快地进行故障定位及分析。

Description

一种数据智能分析方法及系统
技术领域
本申请涉及数据分析领域,特别是涉及一种数据智能分析方法及系统。
背景技术
随着大数据、云计算机技术在银行数据中心的广泛应用,银行内IT系统已经发展得十分复杂,通常会部署品牌众多的基础软硬件产品,并且使用定制开发的应用系统;同时随着互联网服务化的深入,银行的IT系统要求7*24小时不间断地为用户提供服务,所以在当前环境下银行企业的IT运维工作有着极强的时效性和复杂性。而由于在IT运维时往往会有业务、应用、系统、网络、存储、机房环境等异常告警同时出现,此时需要跨领域各专业的技术人员协同分析,以对故障进行定位,也就是说,对故障进行定位的整个过程依赖于人工和其专业领域的知识经验,但是以人工的方式对故障进行定位及分析往往会消耗大量的时间和精力。
由此,如何在复杂且跨领域的IT环境下较快地进行故障定位及分析,成为本领域亟需解决的技术问题。
发明内容
基于上述问题,本申请提供了一种数据智能分析方法及系统,能够通过数据分析的方式在复杂且跨领域的IT环境下较快地进行故障定位及分析。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种数据智能分析方法,所述方法包括:
建立跨领域实时的统一运维数据模型;
以所述统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果;所述故障定位规则库中的规则为通过数据分析和机器学习,将专家经验配置到规则引擎所得到的规则;
在所述统一运维数据模型的基础上,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析;
利用所述故障定位结果、所述影响分析以及故障相关信息对故障进行画像,得到故障画像。
可选的,所述建立跨领域实时的统一运维数据模型,包括:
通过作业平台和数据采集引擎,从数据源进行数据监听和抓取;
利用数据集成引擎的转发功能将监听和抓取到的数据转发至数据存储引擎形式贴源数据层;
通过数据集成引擎根据数据规则库中的数据提取规则对所述贴源数据层中的数据进行提取;
基于数据标准库对提取出的数据进行数据标准化转换;
将转换后的数据进行校验及清洗;
根据数据标签库,对经过校验和清洗的数据进行业务标签和技术标签的补充;
基于具有业务标签和技术标签的数据,对事实明细数据进行数据补维,形成数据宽表;
对所述数据宽表进行多层次计算,形成数据主题;
将所述数据主题进行多主题融合和关联,得到数据专题;
将运维领域配置信息管理数据库中的运维对象、属性以及关系与实时数仓和离线数仓内容进行结合与关联,形成运维数据模型;
基于所述数据专题,对数据进行关系挖掘、数据挖掘以及OLAP分析,对所述运维数据模型进行补充和增强。
可选的,所述以所述统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果,包括:
在触发故障告警后,通过故障特征匹配,获取历史不同根因的占比和匹配度排名;
利用历史故障处置数据对当前故障定位进行匹配;
基于故障知识库,通过人工定义或自然语言解析进行智能分类,作为故障分析依据和故障根因推荐,得到处置建议、自动化工具箱以及方案推荐;所述故障知识库为通过采集故障处理过程数据而形成的。
可选的,所述在所述统一运维数据模型的基础上,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析,包括:
利用业务影响模型中的对象级影响模型构建健康度影响模型;
通过专家经验或者人工智能算法,计算维护指标之间的关系;
通过分析关联指标当前时刻分布的均值和方差,根据高斯公式计算健康度分数值;
基于所述健康度分数值,根据业务影响模型中的影响关系和影响策略进行影响传播,以形成影响分析。
可选的,所述方法还包括:
将所述故障画像推送至用户;
在所述用户进行意见反馈时,利用NLP分词技术对所述意见进行提取。
第二方面,本申请实施例提供了一种数据智能分析系统,所述系统包括:
统一运维数据模型建立模块,用于建立跨领域实时的统一运维数据模型;
故障定位结果获取模块,用于以所述统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果;所述故障定位规则库中的规则为通过数据分析和机器学习,将专家经验配置到规则引擎所得到的规则;
影响分析模块,用于在所述统一运维数据模型的基础上,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析;
故障画像获取模块,用于利用所述故障定位结果、所述影响分析以及故障相关信息对故障进行画像,得到故障画像。
可选的,所述统一运维数据模型模块,包括:
数据获取子模块,用于通过作业平台和数据采集引擎,从数据源进行数据监听和抓取;
数据存储子模块,用于利用数据集成引擎的转发功能将监听和抓取到的数据转发至数据存储引擎形式贴源数据层;
数据提取子模块,用于通过数据集成引擎根据数据规则库中的数据提取规则对所述贴源数据层中的数据进行提取;
数据标准化转换子模块,用于基于数据标准库对提取出的数据进行数据标准化转换;
数据清洗子模块,用于将转换后的数据进行校验及清洗;
标签补充子模块,用于根据数据标签库,对经过校验和清洗的数据进行业务标签和技术标签的补充;
数据补维子模块,用于基于具有业务标签和技术标签的数据,对事实明细数据进行数据补维,形成数据宽表;
数据多层次计算子模块,用于对所述数据宽表进行多层次计算,形成数据主题;
主题融合子模块,用于将所述数据主题进行多主题融合和关联,得到数据专题;
运维数据模型获取子模块,用于将运维领域配置信息管理数据库中的运维对象、属性以及关系与实时数仓和离线数仓内容进行结合与关联,形成运维数据模型;
运维数据模型更新子模块,用于基于所述数据专题,对数据进行关系挖掘、数据挖掘以及OLAP分析,对所述运维数据模型进行补充和增强。
可选的,所述故障定位结果获取模块,包括:
根因占比获取子模块,用于在触发故障告警后,通过故障特征匹配,获取历史不同根因的占比和匹配度排名;
故障定位匹配子模块,用于利用历史故障处置数据对当前故障定位进行匹配;
方案推荐子模块,用于基于故障知识库,通过人工定义或自然语言解析进行智能分类,作为故障分析依据和故障根因推荐,得到处置建议、自动化工具箱以及方案推荐;所述故障知识库为通过采集故障处理过程数据而形成的。
可选的,所述影响分析模块,包括:
健康度影响模块构建子模块,用于利用业务影响模型中的对象级影响模型构建健康度影响模型;
维护指标关系获取子模块,用于通过专家经验或者人工智能算法,计算维护指标之间的关系;
健康度分数值计算子模块,用于通过分析关联指标当前时刻分布的均值和方差,根据高斯公式计算健康度分数值;
影响分析子模块,用于基于所述健康度分数值,根据业务影响模型中的影响关系和影响策略进行影响传播,以形成影响分析。
可选的,所述系统还包括:
故障画像推送模块,用于将所述故障画像推送至用户;
意见反馈模块,用于在所述用户进行意见反馈时,利用NLP分词技术对所述意见进行提取。
相较于现有技术,本申请具有以下有益效果:
本申请实施例提供的一种数据智能分析方法,通过建立跨领域实时的统一运维数据模型;以所述统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果;所述故障定位规则库中的规则为通过数据分析和机器学习,将专家经验配置到规则引擎所得到的规则;在所述统一运维数据模型的基础上,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析;利用所述故障定位结果、所述影响分析以及故障相关信息对故障进行画像,得到故障画像。在故障发生时,能够通过统一运维数据模型和故障定位规则库对故障进行定位,得到故障定位结果,然后进行影响分析,基于故障定位结果、影响分析以及故障相关信息对故障进行画像,故障画像相当于对故障从其根因、处置建议以及方案推荐等方面进行的分析,从而能够实现在复杂且跨领域的IT环境下较快地进行故障定位及分析。
需要说明的是,本申请提供的一种数据智能分析系统由于能够实现上述数据智能分析方法的步骤,从而同样具备上述有益效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据智能分析方法流程示意图;
图2为本申请实施例提供的一种统一运维数据模型构建方法流程示意图;
图3为本申请实施例提供的一种统一运维数据模型输出示意图;
图4为本申请实施例提供的一种故障定位处理流程示意图;
图5为本申请实施例提供的一种对象级健康度影响模型示意图;
图6为本申请实施例提供的一种指标间影响关系示意图;
图7为本申请实施例提供的一种健康度相关指标集合示意图;
图8为本申请实施例提供的一种各类指标数据分布示意图;
图9为本申请实施例提供的一种影响传播方式示意图;
图10为本申请实施例提供的一种数据智能分析方法论原理示意图;
图11为本申请实施例提供的一种数据智能分析方法技术架构示意图;
图12为本申请实施例提供的一种数据智能分析系统结构示意图。
具体实施方式
正如前文描述,目前在IT运维时往往会有业务、应用、系统、网络、存储、机房环境等异常告警同时出现,此时需要跨领域各专业的技术人员协同分析,以对故障进行定位,也就是说,对故障进行定位的整个过程依赖于人工和其专业领域的知识经验,但是以人工的方式对故障进行定位及分析往往会消耗大量的时间和精力。
发明人经过研究,发明了一种数据智能分析方法及系统,能够在复杂且跨领域的IT环境下较快地进行故障定位及分析。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例
参见图1,该图为本申请实施例提供的一种数据智能分析方法流程示意图,包括以下步骤:
S101,建立跨领域实时的统一运维数据模型。
需要说明的是,统一运维数据模型可以以运维领域配置信息管理数据库CMDB中的配置模型为核心,组织告警、指标、日志、流量、IT服务管理工单数据、自动化操作、审计平台人工操作等多源运维数据,形成各类数据之间的关系,例如,配置与告警的关系、告警与指标的关系、指标与指标的关系、指标与自动化、人工操作之间的关系等,最终形成跨领域的实时的统一运维数据模型。
具体地,可以通过作业平台和数据采集引擎,从数据源进行数据监听和抓取,利用数据集成引擎的转发功能将监听和抓取到的数据转发至数据存储引擎形式贴源数据层,通过数据集成引擎根据数据规则库中的数据提取规则对所述贴源数据层中的数据进行提取,基于数据标准库对提取出的数据进行数据标准化转换,将转换后的数据进行校验及清洗,根据数据标签库,对经过校验和清洗的数据进行业务标签和技术标签的补充,基于具有业务标签和技术标签的数据,对事实明细数据进行数据补维,形成数据宽表,对所述数据宽表进行多层次计算,形成数据主题,将所述数据主题进行多主题融合和关联,得到数据专题,将运维领域配置信息管理数据库中的运维对象、属性以及关系与实时数仓和离线数仓内容进行结合与关联,形成运维数据模型,基于所述数据专题,对数据进行关系挖掘、数据挖掘以及OLAP分析,对所述运维数据模型进行补充和增强。
构建统运维数据模型的流程可以参见图2,该图为本申请实施例提供的一种统一运维数据模型构建方法流程示意图,主要包括模型输入、模型构建以及模型输出三部分。其中,模型的输入主要包括:配置管理数据、业务关键指标、基础监控数据、ITIL流转数据以及知识数据这五个维度,其中ITIL为IT运维管理;模型的构建主要包括数据采集、数据提取、数据标准化、数据清洗、数据标签化、数据主题化、数据专题化、运维数据模型化以及数据分析这九个步骤进行;而模型的输出可以通过实体和实体关系构成对真实世界的描述、实体的不断活动形成大数据、有逻辑的活动串联为业务流程以及数据的时态四部分。
针对模型的输入,具体地,首先可以利用配置管理模型对数据进行配置,配置管理模型涵盖业务服务层、IT服务层、逻辑资源层、物理资源层、基础环境层。体现应用和技术架构的关系逻辑图,将IT系统的实体模型和业务层次的逻辑模型清晰地对应并结合起来,将每个IT组件故障或性能事件自动、快速地映射到不同层次的业务服务的状态,以快速、准确地确定业务影响范围和程度。然后获取包含有监控告警、监控指标和日志的关键指标,其中,监控告警包括应用告警、系统告警、网络告警、硬件告警等;监控指标包括业务应用、容量指标、状态指标、性能指标等;日志包括交易日志、应用日志、安全审计日志、中间件日志、系统日志、设备日志、网络流量等。之后获取包含有事件、问题、变更和例行操作等数据的IT服务工单数据。而知识数据则包含有专家经验、知识库数据以及故障规则等。
对于模型的构建,具体地,通过作业平台和数据采集引擎,从数据源进行数据监听和抓取,并通过数据集成引擎转发功能转发至数据存储引擎形式贴源数据层,为数据分析和人工智能提供原始数据,以实现数据采集;通过数据集成引擎,根据数据规则库的数据提取规则对数据进行提取,以实现数据提取;根据数据标准库,例如,元数据标准、数据项标准等,进行数据标准化转换,以实现数据标准化;对数据进行校验,将属性错误、缺失的数据、重复数据进行清洗,以实现数据清洗;根据数据标签库,对清洗后的数据进行业务标签和技术标签的补充,以实现数据标签化,使得数据均具有对应的业务标签和技术标签;对实现标签化后的数据进行维度抽取、分类、汇总、退化,对事实明细数据进行数据补维,形成数据宽表,进行多层次计算,形成数据主题,以实现数据主题化;对形成了数据主题的数据进行多主题融合和关联,形成更丰富、多维的数据专题,以实现数据专题化,需要说明的是,数据专题是后续数据分析步骤进行的基础;结合CMDB中的运维对象、属性、关系,结合实时数仓和离线数仓内容,进行关联,形成运维数据模型,以实现运维数据模型化;基于专题化后的数据,进行关系挖掘、数据挖掘和OLAP分析,结合人工智能算法进行智能分析为补充、增强运维数据模型,以实现数据分析,需要说明的是,OLAP(Online Analytical Processing)是一种数据处理技术,用于支持复杂的分析操作。
对于模型的输出,可以参见图3,该图为本申请实施例提供的一种统一运维数据模型输出示意图,其中示例性的标出了各类数据之间的关系,需要说明的是,模型的数据从实体和实体关系构成对真实世界的描述方面,可以理解为企业中的一切物理的、逻辑的存在均可以抽象为实体,即企业活动的主语,例如,人、设备、计算机、云服务、业务系统等实体与实体之间有关系,如连接关系、依赖关系、安装关系、同事关系等,通过关系将实体形成关系网;从实体的不断活动形成大数据方面来说,实体不断的进行活动,活动可能表现为服务器的CPU利用率等,并且实体是有限的,而活动是无限的,大数据是由于大量的实体活动造成,可以按照时间进行版本化存储;从有逻辑的活动串联为业务流程方面来说,活动之间会有各种逻辑,例如,与、或、非等,实体活动通过逻辑串连为流程,流程通过活动产生的“事件(event)”来驱动,借鉴EPC(Event-driven Process Chain)理论;从数据的时态方面来说,由于信息是具有时效性的,根据时间点变化的知识和数据同样代表了有意义的信息,将“时间”作为重要变量,可以根据时间定位事实的生成时间、有效时间段、知识在特定历史时刻的状态、发展趋势预测分析。
S102,以所述统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果。
需要说明的是,故障定位规则库中的规则为通过数据分析和机器学习,将专家经验配置到规则引擎所得到的规则。
具体地,可以在触发故障告警后,通过故障特征匹配,获取历史不同根因的占比和匹配度排名,利用历史故障处置数据对当前故障定位进行匹配,基于故障知识库,通过人工定义或自然语言解析进行智能分类,作为故障分析依据和故障根因推荐,得到处置建议、自动化工具箱以及方案推荐。需要说明的是,所述故障知识库为通过采集故障处理过程数据而形成的。
参见图4,该图为本申请实施例提供的一种故障定位处理流程示意图,主要包括故障发现、故障分析、故障处置、故障知识库以及辅助定位及处置推荐五部分。
首先,进行故障定位触发,在新的事件到来时,例如,存在故障告警信息,将该信息经过场景开启规则过滤后,执行根因规则。利用场景开启规则进行过滤能够将失误告警信息进行过滤,根因规则所用的信息会根据懒加载的模式从运维数据模型获取实时获取数据信息和关系,从而完成规则的运算,得出最终的结果。
然后进行故障历史根因分析推荐和处置建议,可以采用人工和程序等方式采集事件单、自动化工具箱和方案等故障处置过程数据,形成故障知识库;然后通过匹配故障特征,将历史不同根因的占比和匹配度排名进行展示,为用户提供参考。需要说明的是,历史故障处置方案智能匹配是利用历史故障处置数据匹配当前故障定位,将相似度高的作为处置建议;基于故障知识库通过人工定义或自然语言解析的方式进行智能分类,为用户提供历史根因排名,作为故障分析依据和故障根因推荐,进而给出处置建议、自动化工具箱和方案推荐。
S103,在所述统一运维数据模型的基础上,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析。
在本申请提供的实施例中,可以利用业务影响模型中的对象级影响模型构建健康度影响模型,通过专家经验或者人工智能算法,计算维护指标之间的关系,通过分析关联指标当前时刻分布的均值和方差,根据高斯公式计算健康度分数值,基于所述健康度分数值,根据业务影响模型中的影响关系和影响策略进行影响传播,以形成影响分析。
具体地,业务影响分析可以从业务影响模型、健康度计算和模型运算三个方面进行说明。
首先,对于业务影响模型而言,目前业务服务树模型可以描述业务、技术、资源各个层次的对象以及之间的联系,为业务影响分析、根因分析打下了良好的基础。但是在实际生产过程中,业务影响模型与业务服务树模型不完全相同,比如A服务调用B关系,在业务服务树模型中访问调用关系的是正向的,但是影响方向是反向的,有的在业务服务树模型中存在关系,但是并无影响关系,有的在业务服务树模型不存在直接关系或者常规关系,但却存在影响关系,此时可配置为影响关系,因此需要在业务服务树模型的基础上衍生出业务影响模型。影响关系具体属性可以参见下表1:
表1
需要说明的是,业务影响模型可以分为对象级影响模型和指标级影响模型。对象级影响模型即对象级别的健康度响应模型,可以根据专家经验配置影响模型,例如在某两个服务间调用关系,配置“是否有影响”为“是”,“影响方向”为“反向影响”,“影响传播模式”配置为“普通模式”,即基于专家经验进行建模;也可以基于人工智能算法对日志、流量、指标等数据进行分析,得出影响方向和影响关系等。作为一种示例,具体实例化影响关系可以参见下表2:
表2
最终形成的对象级别的健康度影响模型可以参见图5,该图为本申请实施例提供的一种对象级健康度影响模型示意图。
对于指标级影响模型,可以通过通过专家经验或者人工智能算法,计算维护指标之间的关系,例如人工智能算法通过对同时间窗口内指标波动趋势相似或者相逆,来获取指标的关联性。指标间的影响关系可以参见图6,该图为本申请实施例提供的一种指标间影响关系示意图,示出了数据库会话数指标与本地磁盘的繁忙度指标之间的影响关系。
对于健康度计算而言,健康度值的评判是由健康度的关联指标决定,可以通过对关联指标当前时刻的分布的均值和方差进行分析,基于该均值和方差根据高斯公式计算出分数值。需要说明的是,多个关联指标之间的权重占比可以取总数的平均值。
参见图7,该图为本申请实施例提供的一种健康度相关指标集合示意图,对于与健康度相关指标集合的选择,可以以健康度对象的不变,通过皮尔逊相关系数挑选出相关的指标二维矩阵。
需要说明的是,对于健康度计算时的数据特征提取,由于各个指标从数据分布的角度分析,其数据是连续性的,从原理上来说其服从正态分布,参见图8,该图为本申请实施例提供的一种各类指标数据分布示意图,在提取时,可以提取间隔20分钟各个指标的特征值及分值,取其特征值及分值构建训练集。
然后可以结合离线模型和在线模型对健康度进行计算。对于离线模型,其主要从各个指标提取的特征考虑,采用正态分布统计模型进行模型的构建及训练。采用上述步骤所提取的特征作为模型的输入,将分值作为其结果,通过公式进行模型的训练,得到该指标对应的均值μ和标准差σ,然后以指标为主键,将对象和对象的各个指标对应的均值μ和标准差σ存储至mysql中。上述公式中,Index为该指标的健康值,x为该指标提取的特征值,均值μ为该指标求解出的均值,标准差σ为该指标求解出的标准差。
然后可以利用在线模型进行预测,在线模型预测主要通过用户输入的服务器对象和其指标,从mysql中找出其对应的均值μ和标准差σ,结合当前指标的值,将其带入到公式中求解出其对应的健康值,然后将所有指标的健康值通过公式求解出服务器对象的健康值,其中HMI_SCORE为服务器对象的健康值,index为各个指标求解的健康值,经过softmax归一化处理,求和得到服务器对象的健康值。最后将计算得到的健康值转换为可用性状态。
对于模型运算而言,影响模型算法规则为面向业务的事件或指标对资源节点和业务节点状态的影响,根据节点的健康度状态属性(STATUS)其可分为不可用、轻微受损、受损、轻微受损、正常五类,可通过对关键指标的分析计算资源节点的健康度。根据影响模型中的影响关系,影响策略,进行影响传播。需要说明的是,影响模型中的影响关系,根据影响方向和传播模式进行影响传播。传播模式分为直接传播模式、健康度传播模式和影响规则模式三种。其中,直接传播模式为直接影响,不考虑本节点的健康状态而直接进行传播;健康度传播模式为在传播过程中校验各节点的健康度,如果健康度正常停止传播,若健康度不正常则继续进行影响传播;影响规则模型为当影响到达该节点时,需要读取影响规则,进行规则运算,决策是否进行影响传播。影响传播方式可以参见图9,该图为本申请实施例提供的一种影响传播方式示意图。
S104,利用所述故障定位结果、所述影响分析以及故障相关信息对故障进行画像,得到故障画像。
具体地,可以结合故障定位、影响分析、故障标签、故障追踪、故障处置知识库+故障处置推荐、相关告警、相关工单、相关审计日志、相关自动化操作日志,以及节点的各类信息,对故障进行画像,也就是对故障从其根因、处置建议以及方案推荐等方面进行分析。
本申请实施例提供的一种数据智能分析方法,通过建立跨领域实时的统一运维数据模型;以统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果;基于统一运维数据模型,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析;利用故障定位结果、影响分析以及故障相关信息对故障进行画像,得到故障画像。在故障发生时,基于故障定位结果、影响分析以及故障相关信息对故障进行画像,故障画像相当于对故障从其根因、处置建议以及方案推荐等方面进行的分析,从而能够实现在复杂且跨领域的IT环境下较快地进行故障定位及分析。
作为一种示例,在得到故障画像后,还可以将所述故障画像推送至用户;在所述用户进行意见反馈时,利用NLP分词技术对所述意见进行提取。
需要说明的是,NLP(Natural Language Processing)技术为自然语言处理技术,将故障画像数据分析报告实时推送到用户,能够实现即时触动用户的效果,并且还可以接收用户的反馈意见,通过NLP分词技术对反馈意见进行提取,形成结构化故障分析判断,形成数据校验的闭环管理。
本申请实施例提供的一种数据智能分析方法的方法论原理可以参见图10,该图为本申请实施例提供的一种数据智能分析方法论原理示意图,主要通过外联系统环境和外部信息及情报输入到业务系统进行观察,然后通过关键业务目标、日志和服务树、分析和诊断、经验和知识库以及基础监控数据之间的交互进行判断,再进行决策和行动。
本申请实施例提供的一种数据智能方法的整体技术架构可以参见图11,该图为本申请实施例提供的一种数据智能分析方法技术架构示意图,首先基于包含有性能指标、状态指标、日志信息、告警信息和巡查的数据源中获取数据,通过Kafka平台发送至Flink引擎和数据平台,需要说明的是,Flink引擎为框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算,Flink引擎能够进行场景开启判断、规则参数手机、故障定位规则执行以及影响分析规则执行的步骤,然后再通过Kafka平台将数据传输到各数据库中进行存储,以及发送到运维管理平台和工作台等平台辅助运维人员对故障进行处理;数据在发送至数据平台后,在数据平台中进行标准化、维度补全以及指标计算后,经过关系数据库、图数据库、时序数据库等数据库进行数据存储后,将数据发送至运维数据模型和规则管理平台,规则管理平台具有规则库、KIE Server、KIE Workbench以及人工智能,需要说明的是,KIE Server为容器,包含有应用编程接口REST API和执行引擎,KIE Workbench为一种规则引擎,包含有规则配置和测试模块,规则库包含有规则和模型。通过图11所示的架构,能够实现故障画像、影响规则管理、故障定位规则管理以及规则测试等功能。
本申请实施例提供的一种数据智能分析方法,通过建立统一运数据模型、故障定位规则库、业务影响分析,并基于统一运维数据模型、故障定位规则库、业务影响分析形成故障画像,以大数据平台为底座,能够提高数据体系可视化建设能力、数据流批一体计算能力、多类型数据存储和查询能力、资源统一调度能力、数据任务调度能力等强大的数据能力,并且能够结合人工智能算法,来实现异常检测、数据关联度分析、健康度分析、故障关联度分析、故障定位等功能,实现在复杂且跨领域的IT环境下较快地进行故障定位及分析。
系统实施例
参见图12,该图为本申请实施例提供的一种数据智能分析系统结构示意图,包括:同一运维数据模型建立模块1201、故障定位结果获取模块1202、影响分析模块1203以及故障画像获取模型1204。
其中,统一运维数据模型建立模块1201,用于建立跨领域实时的统一运维数据模型;
故障定位结果获取模块1202,用于以所述统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果;所述故障定位规则库中的规则为通过数据分析和机器学习,将专家经验配置到规则引擎所得到的规则;
影响分析模块1203,用于在所述统一运维数据模型的基础上,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析;
故障画像获取模块1204,用于利用所述故障定位结果、所述影响分析以及故障相关信息对故障进行画像,得到故障画像。
可选的,所述统一运维数据模型模块1201,包括:
数据获取子模块,用于通过作业平台和数据采集引擎,从数据源进行数据监听和抓取;
数据存储子模块,用于利用数据集成引擎的转发功能将监听和抓取到的数据转发至数据存储引擎形式贴源数据层;
数据提取子模块,用于通过数据集成引擎根据数据规则库中的数据提取规则对所述贴源数据层中的数据进行提取;
数据标准化转换子模块,用于基于数据标准库对提取出的数据进行数据标准化转换;
数据清洗子模块,用于将转换后的数据进行校验及清洗;
标签补充子模块,用于根据数据标签库,对经过校验和清洗的数据进行业务标签和技术标签的补充;
数据补维子模块,用于基于具有业务标签和技术标签的数据,对事实明细数据进行数据补维,形成数据宽表;
数据多层次计算子模块,用于对所述数据宽表进行多层次计算,形成数据主题;
主题融合子模块,用于将所述数据主题进行多主题融合和关联,得到数据专题;
运维数据模型获取子模块,用于将运维领域配置信息管理数据库中的运维对象、属性以及关系与实时数仓和离线数仓内容进行结合与关联,形成运维数据模型;
运维数据模型更新子模块,用于基于所述数据专题,对数据进行关系挖掘、数据挖掘以及OLAP分析,对所述运维数据模型进行补充和增强。
可选的,所述故障定位结果获取模块1202,包括:
根因占比获取子模块,用于在触发故障告警后,通过故障特征匹配,获取历史不同根因的占比和匹配度排名;
故障定位匹配子模块,用于利用历史故障处置数据对当前故障定位进行匹配;
方案推荐子模块,用于基于故障知识库,通过人工定义或自然语言解析进行智能分类,作为故障分析依据和故障根因推荐,得到处置建议、自动化工具箱以及方案推荐;所述故障知识库为通过采集故障处理过程数据而形成的。
可选的,所述影响分析模块1203,包括:
健康度影响模块构建子模块,用于利用业务影响模型中的对象级影响模型构建健康度影响模型;
维护指标关系获取子模块,用于通过专家经验或者人工智能算法,计算维护指标之间的关系;
健康度分数值计算子模块,用于通过分析关联指标当前时刻分布的均值和方差,根据高斯公式计算健康度分数值;
影响分析子模块,用于基于所述健康度分数值,根据业务影响模型中的影响关系和影响策略进行影响传播,以形成影响分析。
可选的,所述系统还包括:
故障画像推送模块,用于将所述故障画像推送至用户;
意见反馈模块,用于在所述用户进行意见反馈时,利用NLP分词技术对所述意见进行提取。
本申请实施例提供的一种数据智能分析系统,利用同一运维数据模型建立模块、故障定位结果获取模块、影响分析模块以及故障画像获取模块,通过建立跨领域实时的统一运维数据模型;以所述统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果;所述故障定位规则库中的规则为通过数据分析和机器学习,将专家经验配置到规则引擎所得到的规则;在所述统一运维数据模型的基础上,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析;利用所述故障定位结果、所述影响分析以及故障相关信息对故障进行画像,得到故障画像。在故障发生时,能够通过统一运维数据模型和故障定位规则库对故障进行定位,得到故障定位结果,然后进行影响分析,基于故障定位结果、影响分析以及故障相关信息对故障进行画像,故障画像相当于对故障从其根因、处置建议以及方案推荐等方面进行的分析,从而能够实现在复杂且跨领域的IT环境下较快地进行故障定位及分析。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块提示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种数据智能分析方法,其特征在于,所述方法包括:
建立跨领域实时的统一运维数据模型;
以所述统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果;所述故障定位规则库中的规则为通过数据分析和机器学习,将专家经验配置到规则引擎所得到的规则;
在所述统一运维数据模型的基础上,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析;
利用所述故障定位结果、所述影响分析以及故障相关信息对故障进行画像,得到故障画像。
2.根据权利要求1所述的方法,其特征在于,所述建立跨领域实时的统一运维数据模型,包括:
通过作业平台和数据采集引擎,从数据源进行数据监听和抓取;
利用数据集成引擎的转发功能将监听和抓取到的数据转发至数据存储引擎形式贴源数据层;
通过数据集成引擎根据数据规则库中的数据提取规则对所述贴源数据层中的数据进行提取;
基于数据标准库对提取出的数据进行数据标准化转换;
将转换后的数据进行校验及清洗;
根据数据标签库,对经过校验和清洗的数据进行业务标签和技术标签的补充;
基于具有业务标签和技术标签的数据,对事实明细数据进行数据补维,形成数据宽表;
对所述数据宽表进行多层次计算,形成数据主题;
将所述数据主题进行多主题融合和关联,得到数据专题;
将运维领域配置信息管理数据库中的运维对象、属性以及关系与实时数仓和离线数仓内容进行结合与关联,形成运维数据模型;
基于所述数据专题,对数据进行关系挖掘、数据挖掘以及OLAP分析,对所述运维数据模型进行补充和增强。
3.根据权利要求1所述的方法,其特征在于,所述以所述统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果,包括:
在触发故障告警后,通过故障特征匹配,获取历史不同根因的占比和匹配度排名;
利用历史故障处置数据对当前故障定位进行匹配;
基于故障知识库,通过人工定义或自然语言解析进行智能分类,作为故障分析依据和故障根因推荐,得到处置建议、自动化工具箱以及方案推荐;所述故障知识库为通过采集故障处理过程数据而形成的。
4.根据权利要求1所述的方法,其特征在于,所述在所述统一运维数据模型的基础上,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析,包括:
利用业务影响模型中的对象级影响模型构建健康度影响模型;
通过专家经验或者人工智能算法,计算维护指标之间的关系;
通过分析关联指标当前时刻分布的均值和方差,根据高斯公式计算健康度分数值;
基于所述健康度分数值,根据业务影响模型中的影响关系和影响策略进行影响传播,以形成影响分析。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述故障画像推送至用户;
在所述用户进行意见反馈时,利用NLP分词技术对所述意见进行提取。
6.一种数据智能分析系统,其特征在于,所述系统包括:
统一运维数据模型建立模块,用于建立跨领域实时的统一运维数据模型;
故障定位结果获取模块,用于以所述统一运维数据模型中的各类数据以及各类数据之间的关系为参数,执行故障定位规则库中的规则,得到故障定位结果;所述故障定位规则库中的规则为通过数据分析和机器学习,将专家经验配置到规则引擎所得到的规则;
影响分析模块,用于在所述统一运维数据模型的基础上,利用模型对业务中各架构的描述,通过对业务影响模型配置影响参数和影响规则,结合利用人工智能算法计算出的健康度,形成影响分析;
故障画像获取模块,用于利用所述故障定位结果、所述影响分析以及故障相关信息对故障进行画像,得到故障画像。
7.根据权利要求6所述的系统,其特征在于,所述统一运维数据模型模块,包括:
数据获取子模块,用于通过作业平台和数据采集引擎,从数据源进行数据监听和抓取;
数据存储子模块,用于利用数据集成引擎的转发功能将监听和抓取到的数据转发至数据存储引擎形式贴源数据层;
数据提取子模块,用于通过数据集成引擎根据数据规则库中的数据提取规则对所述贴源数据层中的数据进行提取;
数据标准化转换子模块,用于基于数据标准库对提取出的数据进行数据标准化转换;
数据清洗子模块,用于将转换后的数据进行校验及清洗;
标签补充子模块,用于根据数据标签库,对经过校验和清洗的数据进行业务标签和技术标签的补充;
数据补维子模块,用于基于具有业务标签和技术标签的数据,对事实明细数据进行数据补维,形成数据宽表;
数据多层次计算子模块,用于对所述数据宽表进行多层次计算,形成数据主题;
主题融合子模块,用于将所述数据主题进行多主题融合和关联,得到数据专题;
运维数据模型获取子模块,用于将运维领域配置信息管理数据库中的运维对象、属性以及关系与实时数仓和离线数仓内容进行结合与关联,形成运维数据模型;
运维数据模型更新子模块,用于基于所述数据专题,对数据进行关系挖掘、数据挖掘以及OLAP分析,对所述运维数据模型进行补充和增强。
8.根据权利要求6所述的系统,其特征在于,所述故障定位结果获取模块,包括:
根因占比获取子模块,用于在触发故障告警后,通过故障特征匹配,获取历史不同根因的占比和匹配度排名;
故障定位匹配子模块,用于利用历史故障处置数据对当前故障定位进行匹配;
方案推荐子模块,用于基于故障知识库,通过人工定义或自然语言解析进行智能分类,作为故障分析依据和故障根因推荐,得到处置建议、自动化工具箱以及方案推荐;所述故障知识库为通过采集故障处理过程数据而形成的。
9.根据权利要求6所述的系统,其特征在于,所述影响分析模块,包括:
健康度影响模块构建子模块,用于利用业务影响模型中的对象级影响模型构建健康度影响模型;
维护指标关系获取子模块,用于通过专家经验或者人工智能算法,计算维护指标之间的关系;
健康度分数值计算子模块,用于通过分析关联指标当前时刻分布的均值和方差,根据高斯公式计算健康度分数值;
影响分析子模块,用于基于所述健康度分数值,根据业务影响模型中的影响关系和影响策略进行影响传播,以形成影响分析。
10.根据权利要求6所述的系统,其特征在于,所述系统还包括:
故障画像推送模块,用于将所述故障画像推送至用户;
意见反馈模块,用于在所述用户进行意见反馈时,利用NLP分词技术对所述意见进行提取。
CN202311798317.XA 2023-12-25 2023-12-25 一种数据智能分析方法及系统 Pending CN117785530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311798317.XA CN117785530A (zh) 2023-12-25 2023-12-25 一种数据智能分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311798317.XA CN117785530A (zh) 2023-12-25 2023-12-25 一种数据智能分析方法及系统

Publications (1)

Publication Number Publication Date
CN117785530A true CN117785530A (zh) 2024-03-29

Family

ID=90390137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311798317.XA Pending CN117785530A (zh) 2023-12-25 2023-12-25 一种数据智能分析方法及系统

Country Status (1)

Country Link
CN (1) CN117785530A (zh)

Similar Documents

Publication Publication Date Title
Diba et al. Extraction, correlation, and abstraction of event data for process mining
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
US20170109676A1 (en) Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
CN112181960B (zh) 一种基于AIOps的智能运维框架系统
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
CN106067094A (zh) 一种动态评估方法及系统
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
US20170109638A1 (en) Ensemble-Based Identification of Executions of a Business Process
CN113468159A (zh) 一种数据应用全链路管控方法及系统
CN115564071A (zh) 一种电力物联网设备数据标签生成方法及系统
CN115718472A (zh) 水电机组故障扫描诊断方法
Hu et al. E‐maintenance platform design for public infrastructure maintenance based on IFC ontology and Semantic Web services
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
CN115809302A (zh) 元数据处理方法、装置、设备及存储介质
CN111680027A (zh) 基于知识驱动实现智能云管理的方法及其系统
CN111353085A (zh) 一种基于特征模型的云挖掘分析网络舆情方法
CN116611813B (zh) 一种基于知识图谱的智能运维管理方法及系统
US20170109637A1 (en) Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process
Wang et al. A Web-based CBR knowledge management system for PC troubleshooting
CN110415136B (zh) 一种电力调度自动化系统服务能力评估系统与方法
Benvenuti et al. An interactive approach to support event log generation for data pipeline discovery
CN117785530A (zh) 一种数据智能分析方法及系统
Sassite et al. A smart data approach for Spatial Big Data analytics
CN113743695A (zh) 基于大数据的国际工程项目投标报价风险管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination