CN116755992A - 一种基于OpenStack云计算的日志分析方法及系统 - Google Patents
一种基于OpenStack云计算的日志分析方法及系统 Download PDFInfo
- Publication number
- CN116755992A CN116755992A CN202311034383.XA CN202311034383A CN116755992A CN 116755992 A CN116755992 A CN 116755992A CN 202311034383 A CN202311034383 A CN 202311034383A CN 116755992 A CN116755992 A CN 116755992A
- Authority
- CN
- China
- Prior art keywords
- log
- data
- anomaly
- analysis
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 230000005856 abnormality Effects 0.000 claims abstract description 27
- 238000001514 detection method Methods 0.000 claims description 66
- 230000002159 abnormal effect Effects 0.000 claims description 54
- 238000012544 monitoring process Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 230000008439 repair process Effects 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000002407 reforming Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 47
- 238000011161 development Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 24
- 238000004590 computer program Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 10
- 238000013079 data visualisation Methods 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000013024 troubleshooting Methods 0.000 description 7
- 230000036541 health Effects 0.000 description 6
- 238000012800 visualization Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 239000000806 elastomer Substances 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/321—Display for diagnostics, e.g. diagnostic result display, self-test user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明属于机场信息处理技术领域,公开了一种基于OpenStack云计算的日志分析方法及系统。该方法利用OpenStack作为基础构架,构建日志分析工具;利用所述日志分析工具自动化地提取、处理和存储大量的日志数据,并对所述日志数据检索、查询和可视化展示;采用智能算法分析问题的重要性,在大规模的日志数据中发现异常、识别关键信息、判断问题严重程度;针对不同的问题类型,基于日志数据以及智能算法分析问题结果,输出相应的建议和解决方案;通过后台数据计算与图表展示,呈现不同的问题类型、建议和解决方案。本发明提供的基于OpenStack的脚本开发工具将大大提高运维的系统运行状态和整体运维效率。
Description
技术领域
本发明属于机场信息处理技术领域,尤其涉及一种基于OpenStack云计算的日志分析方法及系统。
背景技术
在OpenStack中,由于涉及的组件众多,日志往往分散在不同的节点和服务中,这给故障排查带来了困难。因为日志信息不集中,需要从多个日志文件中进行查找和分析,增加了故障处理时间。因此,在OpenStack运维中,如何有效地管理和分析日志显得尤为重要。为了解决这一问题,需要一个专门的日志检索和分析工具来协助我们快速定位问题,并解决系统隐患。以下是五点详细说明:
(1)目前许多系统的日志收集、存储和处理都比较复杂,导致日志信息不易获取和分析。因此,需要一种简单方便的日志收集工具,能够自动化地收集并存储日志信息,以便后续进行分析。
(2)其次,针对大规模的系统,我们需要一种高效的日志检索工具来帮助我们快速查找到关键信息。这种工具需要支持全文搜索、过滤、排序等功能,以便用户可以快速定位到特定的日志信息。
(3)为了更好地掌握日志信息,还需要一种强大的日志分析工具来帮助我们深入挖掘日志数据。这种工具应该支持多种数据可视化方式,如图表、报表等形式,使得用户可以更加直观地了解系统运行情况。
(4)针对系统中存在的问题,需要一种自动化的日志报警机制来及时发现异常情况。这种机制应该能够自定义报警规则,以便在出现异常情况时能够快速通知相关人员进行处理。
(5)当发现问题后,需要一种高效的解决方案来尽快解决系统隐患。这可能需要一些辅助工具,如调试器、代码审计工具等,以便开发人员可以快速定位问题并进行修复。
总之,日志检索和分析工具是解决当前系统日志收集困难、查找报警手续繁琐的重要手段,有助于提高系统运行效率和可靠性,确保业务正常运行。
通过上述分析,现有技术存在的问题及缺陷为:现有技术中,现有云计算平台日志存储分散,故障排查时间长。使得数据处理效率较低,影响工作效率。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了一种基于OpenStack云计算的日志分析方法及系统,具体涉及一种对机场信息系统中OpenStack云计算平台的日志分析方法及系统,解决了现有云计算平台日志存储分散,故障排查时间长的问题。
所述技术方案如下:基于OpenStack云计算的日志分析方法,包括以下步骤:
S1,利用OpenStack作为基础构架,构建日志分析工具;利用所述日志分析工具自动化地提取、处理和存储的日志数据,并对所述日志数据检索、查询和可视化展示;
S2,在日志分析工具的基础上,采用异常检测机器算法对日志数据存在的问题进行关键信息识别与异常检测;
所述异常检测机器算法包括:通过创建数据准确基线,自动分析检测到的时间序列数据;通过对比基线识别出异常事件,在弹性存储组件Elasticsearch中存储数据和提取数据进行分析,在界面显示组件Kibana管理异常检测作业,将分析后的异常结果显示在界面显示组件Kibana的仪表板界面中,仪表板界面提供图表,展示出实际数据值、预期值的基线以及在这些基线之外发生的异常;
S3,;针对不同的问题类型,基于上述关键信息识别与异常检测分析结果,根据日志问题等级给出处理建议,所述处理建议包括:通过将告警级别和案例进行关联,当出现告警后通过参考关联的案例进行异常告警处理;所述案例根据实际需要进行添加编写;
S4,通过后台数据计算与图表展示,呈现不同的问题类型、建议。
在步骤S1中,构建日志分析工具包括:在源主机安装代理插件,在日志插件中配置源主机的IP和端口号,通过syslog模式发送到日志服务器,发送的内容包含:日志源、组件服务、消息、时间戳;利用文件模式在日志系统的配置文件中写入源主机的IP和日志文件的绝对路径,对目标日志主动进行收集。
在步骤S2中,所述异常检测机器算法对日志数据进行过滤以及基于日志数据中的关键字和性能指标,进行判断问题的严重程度判断;
所述异常检测机器算法使用时间序列分解、贝叶斯分布建模和相关性分析进行实现,机器学习分析通过对比历史数据和计算新数据,对数据的基于时间的特征进行统计建模,将异常结果进行显示;每个异常都有一个异常分数,该分数表明数据点异常的严重性,异常分数在0到100之间,接近100的值表示当前检测到的最大的异常情况;当前异常值比以前检测到的任何其他异常都要大时,以前的异常的分数会减小;所述异常检测机器算法调整异常分数的过程为重整化,异常情况检测作业将时序数据拆分为数据块,对数据块的值进行异常检测记录,当某段时间段频繁出现异常记录时,异常分就会升高,表示该时间段存在异常需要关注;
异常检测的指标:主机异常检测是基于内存使用量和网络出入流量,检测是否存在异常的峰值,访问日志检测是基于日志中关键字,包括:低速率请求(low_request_rate_apache)、异常IP访问(source_ip_request_rate_apache)、异常状态代码(status_code_rate_apache),检测是否存在异常的活动;运行日志检测异常检测是基于日志的速率设定,当检测到日志速率的显著下降,表明某个应用停止响应,日志速率的急速升高,表示可能有拒绝服务攻击(DOS攻击)。
异常检测机器算法进一步,异常检测机器算法自动识别出与用户关注的日志问题相关的信息,并创建正常行为的准确基线识别异常事件或模式;
创建正常行为的准确基线包括基线类型的阈值设定,基线类型的阈值包括日志阈值、基础架构阈值、阈值触发条件,
所述日志阈值包括日志文件中的WARN告警、ERROR错误关键字后触发告警提醒,所述基础架构阈值包括CPU、内存资源超过85%触发告警提醒,所述阈值触发条件包括错误日志超过5条错误,资源负载时间超过5分钟;
所述识别异常事件包括从数据中提取异常结果,日志系统将收集到的日志报错和服务报错与告警阈值进行比对,满足条件后触发告警。
进一步,异常检测机器算法还用于对日志问题进行分类,判断问题的严重程度;对日志问题进行分类中,利用多种分类模型进行分类。
进一步,判断问题的严重程度包括:利用自定义等级判定规则,并采用规则引擎,根据用户需求自定义不同的日志问题等级判定规则;
所述不同的日志问题等级判定规则包括:
日志阈值规则:是和不是包含日志数据中的关键字,大于、等于、小于该数值,匹配或不匹配该条件;
告警级别:警告、次要、主要、危急。
进一步,自然语言处理技术是对日志进行搜索,实现智能化的日志检索,具体包括:直接输入文本字符串进行简单文本搜索,通过字段名作为前缀来根据指定字段进行搜索,通过布尔操作符与、或和非指定搜索条件。
进一步,搜索的方式包括关键字搜索、正则表达式搜索。
在步骤S3中,所述通过将告警级别和案例进行关联,当出现告警后通过参考关联的案例进行异常告警处理包括:
警告,检测到潜在的或即将发生的影响业务的故障,但是目前对业务还没有影响;这种情况下的告警定义为提示告警,出现配置修改,从INFO运行日志中读取;
次要,目前对业务影响轻微,但需要采取纠正措施,以防止更为严重的故障发生,需进行故障检查,包括出现WARN警告日志;
主要,已经影响业务,如果不及时处理会产生较为严重后果的告警,需要进行故障修复,包括出现ERROR报错日志;
危急,已经影响业务,需要立即采取纠正措施的告警,需要立即进行故障修复,包括出现FATAL致命错误日志。
本发明的另一目的在于提供一种基于OpenStack云计算的日志分析系统,实施所述的基于OpenStack云计算的日志分析方法,该系统包括:
原始数据模块,用于从各种数据源收集和传输日志数据;所述数据源包括服务器日志、应用程序日志、系统日志;
数据处理模块,用于负责对收集的日志数据进行过滤、转换、标准化预处理操作;
数据存储模块,用于负责存储所有收集的日志数据;
搜索和分析引擎模块,用于允许用户查询和分析日志数据;
实时监控模块,用于及时发现和响应任何可能的问题或异常情况。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的基于OpenStack的脚本开发工具将大大提高运维的运维效率和系统运行状态。具有以下功能:
日志问题的检索:该工具能够快速分析和检索日志文件,帮助运维人员更快地定位和修复系统故障。运维人员可以使用关键词、时间戳等多种方式来检索日志。
系统问题的快速定位:该工具结合了OpenStack平台的监控功能,可以帮助运维人员快速定位系统问题并进行分析。运维人员可以查看服务器、数据库等各种资源的状态信息,以便快速定位瓶颈。
系统问题的快速解决:通过平台日志分析检索功能,帮助运维人员快速解决系统问题。
仪表台形式直观呈现问题分布:该工具提供了直观的仪表板,运维人员可以在上面看到各种系统指标的实时状态。运维人员可以选择您关心的指标,并设置警报阈值,以便及时发现问题。
提高整体运维效率:该工具可以自动化执行一些常见操作,大大减轻了运维人员的工作负担。
本发明提供的基于OpenStack的脚本开发工具将大大提高运维的系统运行状态和整体运维效率。本发明采用了最新的技术和算法,使得整个日志分析速度更快、分析能力更强,并且可以支持更大规模的数据处理。这将大大提升用户的工作效率,缩短操作时间,降低出错率。本发明设计了直观的界面和操作流程,运维可以轻松上手,无需复杂的培训或使用手册。同时,还提供了一系列便捷的功能和工具,进一步简化了用户的操作流程。仪表盘显示更加直观。本发明根据用户的需求和习惯,设计了简洁明了的数据展示方式,让用户可以一目了然地了解数据的变化趋势和相关指标。而且,还提供了可定制化的视图和报表,让用户可以根据自己的需要进行灵活配置。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理;
图1是本发明实施例1提供的基于OpenStack云计算的日志分析方法流程图;
图2是本发明实施例2提供的基于OpenStack云计算的日志分析方法原理图;
图3是本发明实施例3提供的于OpenStack云计算的日志分析方法程序图;
图4是本发明实施例1提供的基于OpenStack云计算的日志分析系统示意图;
图中:1、原始数据模块;2、数据处理模块;3、数据存储模块;4、搜索和分析引擎模块;5、实时监控模块。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
实施例1,如图1所示,本发明实施例提供的基于OpenStack云计算的日志分析方法包括:
S1,利用OpenStack作为基础构架,构建日志分析工具;利用所述日志分析工具自动化地提取、处理和存储的日志数据,并对所述日志数据检索、查询和可视化展示;
S2,在日志分析工具的基础上,采用异常检测机器算法对日志数据存在的问题进行关键信息识别与异常检测;
所述异常检测机器算法包括:通过创建数据准确基线,自动分析检测到的时间序列数据;通过对比基线识别出异常事件,在弹性存储组件Elasticsearch中存储数据和提取数据进行分析,在界面显示组件Kibana管理异常检测作业,将分析后的异常结果显示在界面显示组件Kibana的仪表板界面中,仪表板界面提供图表,展示出实际数据值、预期值的基线以及在这些基线之外发生的异常;
S3,针对不同的问题类型,基于上述关键信息识别与异常检测分析结果,根据日志问题等级给出处理建议,所述处理建议包括:通过将告警级别和案例进行关联,当出现告警后通过参考关联的案例进行异常告警处理;所述案例根据实际需要进行添加编写;
S4,通过后台数据计算与图表展示,呈现不同的问题类型、建议。
在步骤S1中,构建日志分析工具包括:在源主机安装代理插件,在日志插件中配置源主机的IP和端口号,通过syslog模式发送到日志服务器,发送的内容包含:日志源、组件服务、消息、时间戳;利用文件模式在日志系统的配置文件中写入源主机的IP和日志文件的绝对路径,对目标日志主动进行收集。
在步骤S2中,所述异常检测机器算法对日志数据进行过滤以及基于日志数据中的关键字和性能指标,进行判断问题的严重程度判断;
所述异常检测机器算法使用时间序列分解、贝叶斯分布建模和相关性分析进行实现,机器学习分析通过对比历史数据和计算新数据,对数据的基于时间的特征进行统计建模,将异常结果进行显示;每个异常都有一个异常分数,该分数表明数据点异常的严重性,异常分数在0到100之间,接近100的值表示当前检测到的最大的异常情况;当前异常值比以前检测到的任何其他异常都要大时,以前的异常的分数会减小;所述异常检测机器算法调整异常分数的过程为重整化,异常情况检测作业将时序数据拆分为数据块,对数据块的值进行异常检测记录,当某段时间段频繁出现异常记录时,异常分就会升高,表示该时间段存在异常需要关注;
异常检测的指标:主机异常检测是基于内存使用量和网络出入流量,检测是否存在异常的峰值,访问日志检测是基于日志中关键字,包括:低速率请求(low_request_rate_apache)、异常IP访问(source_ip_request_rate_apache)、异常状态代码(status_code_rate_apache),检测是否存在异常的活动;运行日志检测异常检测是基于日志的速率设定,当检测到日志速率的显著下降,表明某个应用停止响应,日志速率的急速升高,表示可能有拒绝服务攻击(DOS攻击)。
在本发明实施例中,异常检测机器算法自动识别出与用户关注的日志问题相关的信息,并创建正常行为的准确基线识别异常事件或模式;
创建正常行为的准确基线包括基线类型的阈值设定,基线类型的阈值包括日志阈值、基础架构阈值、阈值触发条件,
所述日志阈值包括日志文件中的WARN告警、ERROR错误关键字后触发告警提醒,所述基础架构阈值包括CPU、内存资源超过85%触发告警提醒,所述阈值触发条件包括错误日志超过5条错误,资源负载时间超过5分钟;
所述识别异常事件包括从数据中提取异常结果,日志系统将收集到的日志报错和服务报错与告警阈值进行比对,满足条件后触发告警。
异常检测机器算法还用于对日志问题进行分类,判断问题的严重程度;对日志问题进行分类中,利用多种分类模型进行分类。
判断问题的严重程度包括:利用自定义等级判定规则,并采用规则引擎,根据用户需求自定义不同的日志问题等级判定规则;
所述不同的日志问题等级判定规则包括:
日志阈值规则:是和不是包含日志数据中的关键字,大于、等于、小于该数值,匹配或不匹配该条件;
告警级别:警告、次要、主要、危急。
自然语言处理技术是对日志进行搜索,实现智能化的日志检索,具体包括:直接输入文本字符串进行简单文本搜索,通过字段名作为前缀来根据指定字段进行搜索,通过布尔操作符与、或和非指定搜索条件。
搜索的方式包括关键字搜索、正则表达式搜索。
在步骤S3中,所述通过将告警级别和案例进行关联,当出现告警后通过参考关联的案例进行异常告警处理包括:
警告,检测到潜在的或即将发生的影响业务的故障,但是目前对业务还没有影响;这种情况下的告警定义为提示告警,出现配置修改,从INFO运行日志中读取;
次要,目前对业务影响轻微,但需要采取纠正措施,以防止更为严重的故障发生,需进行故障检查,包括出现WARN警告日志;
主要,已经影响业务,如果不及时处理会产生较为严重后果的告警,需要进行故障修复,包括出现ERROR报错日志;
危急,已经影响业务,需要立即采取纠正措施的告警,需要立即进行故障修复,包括出现FATAL致命错误日志。
通过上述实施例,可以理解,本发明进行了以下创新的技术特征:
实时分析:该方法能够实时监测和分析OpenStack系统生成的日志数据。它可以即时捕获和处理日志事件,以便及时发现和解决潜在的问题。
自动化处理:这方法利用自动化来处理的日志数据。它可以自动提取、过滤和聚合日志信息,减少人工干预的需求,并提高分析效率。
异常检测:通过对OpenStack日志数据进行模式识别和异常检测,帮助管理员快速发现系统中异常行为。
可视化展示:这种方法提供直观的可视化界面,将分析结果展示出来。管理员可以通过可视化界面直观地了解系统的运行状态和趋势,从而更好地管理和优化OpenStack环境。
可扩展性:这方法具有良好的可扩展性,可以适应不同规模和复杂度的OpenStack部署。它能够处理的日志数据,并支持灵活的配置和定制,以满足不用户的需求。
总之,基于OpenStack的日志分析创新方法通过实时分析、自动化处理、异常检测、可视化展示和可扩展性等特征提供了一种高效和全面的方式来监和管理OpenStack系统。
实施例2,作为本发明另一种实施方式,示例性的,基于OpenStack云计算的日志分析方法具体包括以下内容:
(1)利用OpenStack作为基础构架,在此之上构建日志分析工具。该工具能够自动化地提取、处理和存储的日志数据,并实现对这些数据的检索、查询和可视化展示。在源主机安装代理插件,在日志插件中配置源主机的IP和端口号,通过syslog模式发送到日志服务器,传输的内容包含日志源、组件服务、消息、时间戳。
(2)在日志分析工具的基础上,采用智能算法来分析问题的重要性,以帮助运维人员更快速地定位和解决问题。这种智能算法采用异常检测机器算法,能够在大规模的日志数据中发现异常、识别关键信息、判断问题严重程度等。对日志进行过滤并基于日志中的关键字和性能指标,判断问题的严重程度。
(3)针对不同的问题类型,为运维人员提供了相应的建议和解决方案。这些建议和方案基于上述日志数据和智能算法的分析结果,能够帮助运维人员更加有效地解决各种问题,提高系统的可靠性和稳定性。
(4)通过后台数据计算与图表展示,能够清晰地呈现出问题分类和数量的情况。这些图表可以帮助运维人员更好地了解系统的运行状况,及时发现和解决问题,提升整体运维效率和水平。数据学习建模,实时识别异常日志,简化问题原因分析,减少误报。创建正常行为的准确基线,与基准线进行比对识别出异常事件。从数据中提取异常结果显示在仪表板中。
其中,创建正常行为的准确基线包括基线类型的阈值设定,基线类型的阈值包括日志阈值、基础架构阈值、阈值触发条件,
所述日志阈值包括日志文件中的WARN告警、ERROR错误关键字后触发告警提醒,所述基础架构阈值包括CPU、内存资源超过85%触发告警提醒,所述阈值触发条件包括错误日志超过5条错误,资源负载时间超过5分钟;
所述识别异常事件包括从数据中提取异常结果,日志系统将收集到的日志报错和服务报错与告警阈值进行比对,满足条件后触发告警。
在本发明实施例步骤(2)中,本发明可快速检索日志报警,并能给出报警等级提示,帮助运维人员快速定位报警,解决系统问题,并根据日志分析结果,生成的分析报告能够直观反映日志报警分类及数量,便于后期技术人员分析系统运行状态,从而提高了运维工作水平和生产效率。
快速检索日志问题。现代软件系统中,日志文件中通常存储了大量的信息,包括程序的执行情况、错误信息以及故障诊断等。然而,由于日志文件通常非常庞大,很难手动检索到需要关注的信息。本平台通过使用自然语言处理技术和异常检测机器算法,能够快速准确地从海量的日志数据中检索出与用户关注的问题相关的信息,极大地缩短了问题解决的时间。
在本发明实施例步骤(2)中,异常检测机器算法对日志数据进行分析,自动识别出与用户关注的日志问题相关的信息。机器学习异常检测功能自动为时间序列数据学习建模,实时识别异常,简化问题原因分析,减少误报。
创建正常行为的准确基线,这些基线能够识别异常事件或模式。从数据中提取异常结果。本发明应用异常检测机器算法进行数据分析,这样运维人员就不需要耗费大量时间去手动分析数据,可以更快地解决问题。从数据中提取异常结果。
本发明基于异常检测机器算法进行分类。平台异常检测机器算法对日志问题进行分类,可以快速准确地判断问题的严重程度,避免了人工主观判断带来的误差。
提供多种分类模型。平台提供了多种不同的分类模型,使得用户可以根据实际情况选择最适合的分类模型,提高了分类的准确性和可靠性。
适应复杂的多层级日志结构。本发明能够适应复杂的多层级日志结构,包括嵌套的JSON数据、XML文档等。这使得它能够处理各种不同类型的日志(如安全日志、系统日志、程序日志、登录日志、事件日志等),并帮助运维人员更快地找到问题。
本发明提供的平台能够确定日志问题的等级并给出分析建议。对于一些重要的软件系统来说,每个问题的等级都是不同的。如果一个轻微的日志问题被判定为紧急问题,那么就会浪费宝贵的修复资源;反之,如果一个重大的日志问题被判定为次要问题,那么就会给系统造成重大的损失。本平台通过分析日志中的信息,能够自动判断日志问题的等级,并为运维人员提供明确的处理建议。
可以自定义等级判定规则。本发明采用灵活的规则引擎,可以根据用户需求自定义不同的日志问题等级判定规则。这使得系统更加智能化,能够根据不同的应用场景进行优化。
所述不同的日志问题等级判定规则包括:
日志阈值规则:是和不是包含日志数据中的关键字,大于、等于、小于该数值,匹配或不匹配该条件;
告警级别:警告(检测到潜在的或即将发生的影响业务的故障,但是目前对业务还没有影响。这种情况下的告警定义为提示告警。出现了配置修改。从INFO运行日志中读取)、次要(目前对业务影响轻微,但需要采取纠正措施,以防止更为严重的故障发生。需要进行故障检查。比如出现WARN警告日志)、主要(已经影响业务,如果不及时处理会产生较为严重后果的告警。需要进行故障修复。比如出现ERROR报错日志。)、危急(已经影响业务,需要立即采取纠正措施的告警,需要立即进行故障修复。比如出现FATAL致命错误日志)。
在本发明实施例步骤(2)中,采用自然语言处理技术进行搜索。本发明利用自然语言处理技术对日志进行搜索,实现了智能化的日志检索。运维人员只需简单地输入相关的关键词或描述问题的短语,就能快速准确地找到相关的日志信息。
示例性的,可以直接输入文本字符串进行简单文本搜索。可以通过字段名作为前缀来根据指定字段进行搜索,例如输入status:200来搜索字段status中包含词条200的文档。可以通过布尔操作符AND(与)、OR(或)和NOT(非)来指定更多的搜索条件。
在本发明实施例步骤(2)中,支持多种搜索方式。本发明支持多种不同的搜索方式,包括关键字搜索、正则表达式搜索等,能够满足不同用户的需求,提高了搜索效率。
在本发明实施例步骤(3)中,提供实时检索结果。本发明能够实时地返回检索结果,让运维人员能够及时获得有关系统状态的最新情况。这样,运维人员就能够更加迅速地响应问题,提高系统的稳定性。
系统自动给出分析建议。本发明能够自动根据问题等级给出合适的处理建议,包括必要的操作步骤等。这让运维人员更加轻松地解决问题,也有利于提高系统的稳定性。
在本发明实施例步骤(4)中,本发明提供的平台提供了专业的仪表盘设计。仪表盘是系统管理中常用的工具,可以直观地展示系统的状态和重要的数据指标。平台提供了丰富的图表和数据可视化功能,能够帮助运维人员更好地监控系统的运行状态。健康度评分属于智能化服务模块,智能化服务模块接收并处理所述命令结果集文件,生成数据库平台健康度评分,所述健康度评分分为高级健康度、中级健康度、低级健康度,对不同评级给出相应调整建议。
本发明提供的多种数据可视化方式。本发明提供了多种不同的数据可视化方式,包括折线图、柱状图、饼图等,使得用户可以根据实际需求选择最合适的方式展示数据。
可以自定义仪表盘内容。本发明可以根据用户需求自定义仪表盘内容,包括添加、删除、修改图表和指标等。这使得运维人员能够根据实际情况定制专业的仪表盘。
通过上述实施例,本发明支持实时数据更新。本发明支持实时数据更新,能够及时反映系统状态的变化,帮助运维人员更加迅速地响应问题。
本发明提供的平台能够提高系统稳定性。现代软件系统往往非常复杂,存在着各种潜在的故障风险。而平台通过对日志进行智能分析,能够快速准确地发现系统异常,并给出相应的处理建议,从而提高系统的稳定性。
及时发现系统异常。本发明能够及时发现系统中的异常情况,并通过提供详细的日志信息和处理建议,帮助运维人员更快地解决问题,从而避免了潜在的系统风险。
自动化问题诊断和修复。本发明异常检测机器算法和规则引擎,能够自动进行问题诊断和修复,从而减少人工操作,提高系统的稳定性。
提供有效的预警机制。本发明能够及时地对系统异常进行预警,并提供相应的处理建议,帮助运维人员更好地管理系统。
本发明提供的平台能够提高运维整体效率。现代软件系统往往非常庞大,需要进行高效的运维管理。而本发明通过智能化的日志分析、问题诊断和修复等功能,能够提高运维整体效率,减少人工成本和时间浪费。
本发明通过对系统日志的检索和分析,可以大大提高运维人员的工作效率,提升系统稳定性,并根据分析数据生成仪表盘,帮助运维人员后续运维工作开展。
实施例3,作为本发明的另一种实施方式,如图2所示,本发明实施例提供的基于OpenStack云计算的日志分析方法中,日志分析可以从各种系统和应用程序中收集、存储和分析日志数据,以便用户可以深入了解系统或应用程序的运行状况、问题和异常情况。具体包括:
原始数据:从各种数据源(如服务器日志、应用程序日志、系统日志等)收集和传输日志数据。
数据处理:负责对收集的日志数据进行过滤、转换、标准化等预处理操作,以确保数据的一致性和可用性。
数据存储:负责存储所有收集的日志数据,通常使用分布式存储技术来实现高可用性和可伸缩性。
搜索和分析引擎:允许用户查询和分析日志数据,通常具有强大的搜索、聚合、可视化和报告功能。
实时监控:及时发现和响应任何可能的问题或异常情况,以最大限度地减少停机时间和维护成本。
实施例4,作为本发明的另一种实施方式,如图3所示,本发明实施例提供的基于OpenStack云计算的日志分析方法包括:
日志收集:日志从多个不同的来源收集数据,包括日志文件、syslog、网络、消息队列;在配置文件中,指定一个或多个插件告诉日志过滤系统从哪里读取数据;例如从指定路径的文件中读取数据;日志过滤由数据处理和输出数据构成。
所述日志收集目前主要采用代理和文件两种模式。代理是在源主机安装代理插件,在日志插件中配置源主机的IP和端口号,通过syslog模式发送到日志服务器,传输的内容包含日志源、组件服务、消息、时间戳。文件模式是在日志系统的配置文件中写入源主机的IP和日志文件的绝对路径,对目标日志主动进行收集。
数据处理:数据被输入到日志过滤系统中,日志过滤系统解析数据格式,并经过解析、筛选、转换、重构将某个字段的值提取出来,这些步骤由一个或多个处理器组成,每个处理器都有不同的功能。例如,可以通过处理器将某个字段的值提取出来,或者将数据转换为另一种格式;
重复数据删除,将传入事件与历史事件进行比较,对事件进行重复数据删除,消除数据副本减少数据量。日志过滤,对每个输入的事件进行条件匹配,满足则传入,否则丢弃。
输出数据:处理后的数据利用文件、TCP、UDP、HTTP输出插件进行输出,根据需求选择输出插件,并配置相应的参数,输出插件处理好的数据发送到指定的目标位置;数据写入,当缓存中达到数据存放阈值(1-256M)或者到达落盘周期(500ms)将输入写入到存储。重试策略,当响应代码等于429、小于等于500和不等于501将重试失败的请求。
日志搜索:基于开源的分布式搜索和分析引擎从大量结构化和非结构化数据中进行信息提取和分析;自定义索引,通过时间日期或关键字进行日志查找,匹配的索引需包含在日志存储中。
示例性的,日志搜索是一个开源的分布式搜索和分析引擎,它基于Apache Lucene库构建。它提供了一个快速、实时的搜索和数据分析解决方案,可以从大量结构化和非结构化数据中进行信息提取和分析。日志搜索具有高度可扩展性、强大的全文搜索功能、复杂查询支持、实时数据分析和可视化等特点。它能够处理大量数据,支持海量数据的存储和搜索,并提供RESTful API和各种客户端库以便于与其他应用程序进行集成。除了搜索和分析之外,可以帮助用户从大数据中提取有用的信息并做出决策。
展示:采用开源的数据可视化工具,与日志搜索一起使用展示大量的结构化和非结构化数据。
示例性的,展示采用开源的数据可视化工具,它可以与日志搜索一起使用来展示大量的结构化和非结构化数据。可视化工具提供了一个直观、交互式的界面,使用户能够快速和轻松地创建实时数据图表、仪表盘、警报、报告等。且支持各种类型的可视化方式,包括柱状图、折线图、饼图、热力图、地图等,并且支持自定义可视化插件。它还提供了强大的搜索和查询功能,帮助用户从海量数据中快速找到所需信息。除了数据可视化之外,它还提供了一些高级功能,例如安全性管理、用户访问控制、故障排除等。此外可以通过API与其他应用程序进行集成。
总之,日志分析方法及系统包含日志收集、存储、搜索和分析。收集日志对各种来源的日志进行收集,并按照指定格式进行解析和过滤。存储日志将处理后的日志存储到开源分布式存储中,以便后续快速搜索和分析。分析日志进行数据可视化和分析,通过可视化的方式帮助用户更加直观地理解数据。
实施例5,示例性的,本发明实施例提供的基于OpenStack云计算的日志分析方法包括:Vector从服务器收集系统日志,并进行标准化和转换。转换后的数据被送入Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎,用于存储和检索所有类型的数据。Kibana作为Elasticsearch的可视化平台,从Elasticsearch中读取数据,并以各种图表、表格和地图等方式展示系统日志。同时,Kibana还提供了查询和过滤数据的功能,可以通过对数据进行分析和搜索。
实施例6,如图4所示,本发明实施例提供一种基于OpenStack云计算的日志分析系统包括:
原始数据模块1,用于从各种数据源收集和传输日志数据;所述数据源包括服务器日志、应用程序日志、系统日志;
数据处理模块2,用于负责对收集的日志数据进行过滤、转换、标准化预处理操作;
数据存储模块3,用于负责存储所有收集的日志数据;
搜索和分析引擎模块4,用于允许用户查询和分析日志数据;
实时监控模块5,用于及时发现和响应任何可能的问题或异常情况。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本发明上述实施例表明:本发明的技术方案具有实际应用价值:
(1)故障排除和问题解决:OpenStack是一个复杂分布式系统,由多个组件和服务组成。通过对OpenStack日志进行分析,可以及时发现潜在的故障和问题,并快速采取措施进行排除和解决。这将减少系统停机时间,提高系统的可用性和稳定性,从而降低业务中断和损失。
性能优化:通过分析OpenStack日志,可以深入了解系统的运行状况、资源利率和性能颈。基于这些信息,企业可以针对性地进行优化和调整,以提高系统的能和效率。这将增加业务处理能力,提升用户体验,并节约硬件资源和成本。
安全监控和威胁检测:OpenStack日志中包含了系统的安全事件和活动记录。通过对这些日志进行分析,可以实时监控系统的安全状态,及时发现异常行为和潜在的安全威胁这有助于企业及时采取措施应对安全风险,保护关键数据和业务的安全。
综上所述,基于OpenStack的日志分方法可以带来故排除、性能优化、全方位监控等多方面的商业价值。预期收益包括降低停机时间和减少业务损失、提升系统性能和效率、强安全防护、提高业务稳健。
(2)本发明的技术方案填补了业内技术空白:
自动化日志收和处理:OpenStack是一个复杂的分布式系统,生成大量的日志数据。传统的日志分析方法需要手动收集和处理这些日志,非常耗时且容易出错。基于OpenStack的日志分析方法通过自动化工具和技术,可以实现自动收集、聚合和处理日志数据,提高效率快速恢复业务。
实时监控和告警:OpenStack环境中的问题往往需要及时响应和解决,因此实时监控和告警功能至关重要。基于OpenStack的日志分析方法可以实时监控日志数据,并根预定义的规则或模式触发警报,帮助管理员快速发现和解决问题。
故障排除和故障预测:OpenStack环境中可能会发生种故障,如服务崩溃、网络问题等。基于OpenStack的日志分析方法可以通过对日志数据进行深入分析识别潜在的故障原因,并提供故障排除建议。
性能优化:OpenStack环境的性能优化是一个复杂而关键的任务。基于OpenStack的日志分析方法可以帮助管理员识别性能瓶颈,并提出优化建议。通过对大量的日志数据进行分析,可以发现系统中的能问题,并找到解决方案,以提高整体性能和响应能力。
综上所述,基于OpenStack日志分析方法填补了传统日志分析方法在自动化、实时监控、故障排除和性能优化等方面的技术空白,提供了更有效、准确和智能的日志析能力。
(3)本发明的技术方案解决了业内技术难题:
大规模日志处理:OpenStack是一个开源的云算平台,它生成大量的日志数据。传统的日志分析方法因为日志数据量大,容易导致平台IO堵塞,无法高效处理这些大规模的日志数据,而基于OpenStack的日志分析方法可以处理大规模的日志数据。
实时监控和故障排除:OpenStack环境中的各个组件和服务都会产生日志,通过对这日志进行实时监控和分析,可以及时发现潜在的问题和故障,并进行相应的排除。基于OpenStack的日志分析方法可以提供实时的监控和告警功能,帮助管理员快速响应和解决问题。
安全事件检测:日志数据中包含了系统和应用程序的运行状态信息,通过对这些日志进行分析,可以检测到异常行为和安全事件。基于OpenStack的日志分析方法可以结合安全策略和规则,对日志数据进行实时分析和检测,帮助管理员及发现和规避安全威胁。
性能优化:通过对OpenStack环境中的日志数据进行分析,可以了解系统的性能瓶颈和资源利用情况,从而进行性能优化和资源调整。基于OpenStack日志分析方法可以提供性能指标和报告,帮助管理员评估系统的性能,并采取相应的措施进行优化。
总之,基于OpenStack的日分析方法可以帮助管理员更好的了解和管理OpenStack环境,出现错误在造成影响前提前规避,提高系统的可靠性、安全性和稳定性。
(4)本发明的技术方案克服了技术偏见:
云平台复杂性:OpenStack是一个开源的云计算平台,它由多个组件和多个节点组成。这种复杂的系统架构可能导致运维人员对于故障排查和性优化等方面存在偏见。通过使用日志分析方法可以深入的、全面的了解各个组件运行状况,快速识别潜在问题。
故障定困难:当在OpenStack环境中发生故障时,往往需要追踪多个组件之间的交互和通信这可能导致运维人员对于故障的定位存在偏见,无法准确找到问题的根本原因。通过对OpenStack日志进行分析,可以跟踪事件流并建立组件之间的关联,从而更容易定位故障点。
上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程。
基于上述本发明实施例记载的技术方案,进一步的可提出以下应用例。
根据本申请的实施例,本发明还提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本发明实施例还提供了一种信息数据处理终端,所述信息数据处理终端用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤,所述信息数据处理终端不限于手机、电脑、交换机。
本发明实施例还提供了一种服务器,所述服务器用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤。
本发明实施例还提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
为进一步证明上述实施例的积极效果,本发明基于上述技术方案进行如下实验。
自动化日志记录,可以自动收集和记录系统运行时的各种事件和信息它可以捕获应用程序的日志输出、错误消息、错误日志跟踪等,并将其集中保存到日志文件中。在使用日志系统前,系统故障排查需要逐个节点排查系统日志。使用了自动化的日志记录,日志集中存放,便于日志查询,减少OpenStack系统故障排查的时间,提高运维效率。收集后的日志文件进行单独存储,当历史源日志文件丢失后可以在日志系统中查找,增加日志的安全性。
实时监控和分析,日志系统可以实时监控系统的日志输出,并对日志进行分析和处理它可以检测和报告潜在的问题和异常情况,有助于OpenStack运维人员解决系统中的错误和故障。日志系统使用前,只能通过系统管理界面粗略的查看到系统出现了故障,无法立即查询的故障原因。通过日志实时监控和分析功能,可以快速的排查故障原因,提高了OpenStack系统的稳定性和可靠性。
强大的搜索和过滤功能,日志系统提供强大的搜索和过滤功能,可以根据关键字、时间范围、日志级别等条件来查询和筛选日志数据。使用日志系统前,OpenStack故障排查时只能逐个日志文件排查。通过日志搜索功能可以进行日志批量查找,使运维人员能够快速定位和查找日志信息,加快了故障排查的过程,缩短了系统宕机时间。
可视化报表功能,日志系统可以将日志数据可视化展示,并生成各种报表和图表。这样,运维人员可以更直观地了解系统的运行状况和趋势,从而做出相应的优化和改进。使用日志系统前,日志长期静态存放在服务器系统内。日志系统的可视化和报表功能将收集的日志形成报表,提高了运维人员对系统日志的理解分析能力。
可扩展性和集成性,日志系统有良好的可扩性和集成性可以与其他工具和平台进行集成它支持各种日志格式和协,并提供丰富的插件和API,使开发人员能根据自己需求进行定和扩展。
综上所述,Vector日志系统通过自动化日志记录、实时监控和分析、强大的搜索和过滤功能、可视化和报表功能,以及可扩展性和集成性等方面的优势,提供了更高效、便捷和全面的日志管理和分析能力,填补了现有OpenStack系统的短板,增加了OpenStack业务系统的强健。
以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于OpenStack云计算的日志分析方法,其特征在于,该方法包括以下步骤:
S1,利用OpenStack作为基础构架,构建日志分析工具;利用所述日志分析工具自动化地提取、处理和存储的日志数据,并对所述日志数据检索、查询和可视化展示;
S2,在日志分析工具的基础上,采用异常检测机器算法对日志数据存在的问题进行关键信息识别与异常检测;
所述异常检测机器算法包括:通过创建数据准确基线,自动分析检测到的时间序列数据;通过对比基线识别出异常事件,在弹性存储组件Elasticsearch中存储数据和提取数据进行分析,在界面显示组件Kibana管理异常检测作业,将分析后的异常结果显示在界面显示组件Kibana的仪表板界面中,仪表板界面提供图表,展示出实际数据值、预期值的基线以及在这些基线之外发生的异常;
S3,针对不同的问题类型,基于上述关键信息识别与异常检测分析结果,根据日志问题等级给出处理建议,所述处理建议包括:通过将告警级别和案例进行关联,当出现告警后通过参考关联的案例进行异常告警处理;所述案例根据实际需要进行添加编写;
S4,通过后台数据计算与图表展示,呈现不同的问题类型、建议。
2.根据权利要求1所述的基于OpenStack云计算的日志分析方法,其特征在于,在步骤S1中,构建日志分析工具包括:在源主机安装代理插件,在日志插件中配置源主机的IP和端口号,通过syslog模式发送到日志服务器,发送的内容包含:日志源、组件服务、消息、时间戳;利用文件模式在日志系统的配置文件中写入源主机的IP和日志文件的绝对路径,对目标日志主动进行收集。
3.根据权利要求1所述的基于OpenStack云计算的日志分析方法,其特征在于,在步骤S2中,所述异常检测机器算法异常检测机器算法对日志数据进行过滤以及基于日志数据中的关键字和性能指标,进行判断问题的严重程度判断;
所述异常检测机器算法使用时间序列分解、贝叶斯分布建模和相关性分析进行实现,机器学习分析通过对比历史数据和计算新数据,对数据的基于时间的特征进行统计建模,将异常结果进行显示;每个异常都有一个异常分数,该分数表明数据点异常的严重性,异常分数在0到100之间,接近100的值表示当前检测到的最大的异常情况;当前异常值比以前检测到的任何其他异常都要大时,以前的异常的分数会减小;所述异常检测机器算法调整异常分数的过程为重整化,异常情况检测作业将时序数据拆分为数据块,对数据块的值进行异常检测记录,当某段时间段频繁出现异常记录时,异常分就会升高,表示该时间段存在异常需要关注;
异常检测的指标:主机异常检测是基于内存使用量和网络出入流量,检测是否存在异常的峰值,访问日志检测是基于日志中关键字,包括:低速率请求、异常IP访问、异常状态代码,检测是否存在异常的活动;运行日志检测异常检测是基于日志的速率设定,当检测到日志速率的显著下降,表明某个应用停止响应,日志速率的急速升高,表示有拒绝服务攻击。
4.根据权利要求3所述的基于OpenStack云计算的日志分析方法,其特征在于,异常检测机器算法自动识别出与用户关注的日志问题相关的信息,并创建正常行为的准确基线识别异常事件或模式;
创建正常行为的准确基线包括基线类型的阈值设定,基线类型的阈值包括日志阈值、基础架构阈值、阈值触发条件,
所述日志阈值包括日志文件中的WARN告警、ERROR错误关键字后触发告警提醒,所述基础架构阈值包括CPU、内存资源超过85%触发告警提醒,所述阈值触发条件包括错误日志超过5条错误,资源负载时间超过5分钟;
所述识别异常事件包括从数据中提取异常结果,日志系统将收集到的日志报错和服务报错与告警阈值进行比对,满足条件后触发告警。
5.根据权利要求4所述的基于OpenStack云计算的日志分析方法,其特征在于,异常检测机器算法还用于对日志问题进行分类,判断问题的严重程度;对日志问题进行分类中,利用多种分类模型进行分类。
6.根据权利要求5所述的基于OpenStack云计算的日志分析方法,其特征在于,判断问题的严重程度包括:利用自定义等级判定规则,并采用规则引擎,根据用户需求自定义不同的日志问题等级判定规则;
所述不同的日志问题等级判定规则包括:
日志阈值规则:是和不是包含日志数据中的关键字,大于、等于、小于该数值,匹配或不匹配该条件;
告警级别:警告、次要、主要、危急。
7.根据权利要求3所述的基于OpenStack云计算的日志分析方法,其特征在于,自然语言处理技术是对日志进行搜索,实现智能化的日志检索,具体包括:直接输入文本字符串进行简单文本搜索,通过字段名作为前缀来根据指定字段进行搜索,通过布尔操作符与、或和非指定搜索条件。
8.根据权利要求7所述的基于OpenStack云计算的日志分析方法,其特征在于,搜索的方式包括关键字搜索、正则表达式搜索。
9.根据权利要求1所述的基于OpenStack云计算的日志分析方法,其特征在于,在步骤S3中,所述通过将告警级别和案例进行关联,当出现告警后通过参考关联的案例进行异常告警处理包括:
警告,检测到潜在的或即将发生的影响业务的故障,但是目前对业务还没有影响;这种情况下的告警定义为提示告警,出现配置修改,从INFO运行日志中读取;
次要,目前对业务影响轻微,但需要采取纠正措施,以防止更为严重的故障发生,需进行故障检查,包括出现WARN警告日志;
主要,已经影响业务,如果不及时处理会产生较为严重后果的告警,需要进行故障修复,包括出现ERROR报错日志;
危急,已经影响业务,需要立即采取纠正措施的告警,需要立即进行故障修复,包括出现FATAL致命错误日志。
10.一种基于OpenStack云计算的日志分析系统,其特征在于,实施权利要求1-9任意一项所述的基于OpenStack云计算的日志分析方法,该系统包括:
原始数据模块(1),用于从各种数据源收集和传输日志数据;所述数据源包括服务器日志、应用程序日志、系统日志;
数据处理模块(2),用于负责对收集的日志数据进行过滤、转换、标准化预处理操作;
数据存储模块(3),用于负责存储所有收集的日志数据;
搜索和分析引擎模块(4),用于允许用户查询和分析日志数据;
实时监控模块(5),用于及时发现和响应任何可能的问题或异常情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311034383.XA CN116755992B (zh) | 2023-08-17 | 2023-08-17 | 一种基于OpenStack云计算的日志分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311034383.XA CN116755992B (zh) | 2023-08-17 | 2023-08-17 | 一种基于OpenStack云计算的日志分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116755992A true CN116755992A (zh) | 2023-09-15 |
CN116755992B CN116755992B (zh) | 2023-12-01 |
Family
ID=87957531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311034383.XA Active CN116755992B (zh) | 2023-08-17 | 2023-08-17 | 一种基于OpenStack云计算的日志分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116755992B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271350A (zh) * | 2023-09-28 | 2023-12-22 | 江苏天好富兴数据技术有限公司 | 一种基于日志分析的软件质量评估系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980627A (zh) * | 2016-01-18 | 2017-07-25 | 中兴通讯股份有限公司 | 日志内容的显示方法及装置 |
US10303533B1 (en) * | 2016-12-06 | 2019-05-28 | Amazon Technologies, Inc. | Real-time log analysis service for integrating external event data with log data for use in root cause analysis |
CN111008093A (zh) * | 2019-12-22 | 2020-04-14 | 北京浪潮数据技术有限公司 | 一种故障日志查询方法、装置、设备及介质 |
CN111106965A (zh) * | 2019-12-25 | 2020-05-05 | 浪潮商用机器有限公司 | 用于复杂系统的日志智能分析方法、工具、设备及介质 |
CN111552609A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 一种异常状态检测方法、系统、存储介质、程序、服务器 |
CN113553238A (zh) * | 2021-07-23 | 2021-10-26 | 浪潮云信息技术股份公司 | 云平台资源异常自动处理系统及方法 |
-
2023
- 2023-08-17 CN CN202311034383.XA patent/CN116755992B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980627A (zh) * | 2016-01-18 | 2017-07-25 | 中兴通讯股份有限公司 | 日志内容的显示方法及装置 |
US10303533B1 (en) * | 2016-12-06 | 2019-05-28 | Amazon Technologies, Inc. | Real-time log analysis service for integrating external event data with log data for use in root cause analysis |
CN111008093A (zh) * | 2019-12-22 | 2020-04-14 | 北京浪潮数据技术有限公司 | 一种故障日志查询方法、装置、设备及介质 |
CN111106965A (zh) * | 2019-12-25 | 2020-05-05 | 浪潮商用机器有限公司 | 用于复杂系统的日志智能分析方法、工具、设备及介质 |
CN111552609A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 一种异常状态检测方法、系统、存储介质、程序、服务器 |
CN113553238A (zh) * | 2021-07-23 | 2021-10-26 | 浪潮云信息技术股份公司 | 云平台资源异常自动处理系统及方法 |
Non-Patent Citations (2)
Title |
---|
COTRONEO, DOMENICO ET AL.: "HowBad Can a Bug Get? An Empirical Analysis of Software Failures in the OpenStack Cloud Computing Platform", ESEC/FSE\'2019: PROCEEDINGS OF THE 2019 27TH ACM JOINT MEETING ON EUROPEAN SOFTWARE ENGINEERING CONFERENCE AND SYMPOSIUM ON THE FOUNDATIONS OF SOFTWARE ENGINEERING, pages 200 - 211 * |
陆杰;李丰;李炼;: "分布式系统中的日志分析及应用", 高技术通讯, no. 04, pages 303 - 320 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271350A (zh) * | 2023-09-28 | 2023-12-22 | 江苏天好富兴数据技术有限公司 | 一种基于日志分析的软件质量评估系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116755992B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657309B2 (en) | Behavior analysis and visualization for a computer infrastructure | |
US10931511B2 (en) | Predicting computer network equipment failure | |
US11442803B2 (en) | Detecting and analyzing performance anomalies of client-server based applications | |
US9652318B2 (en) | System and method for automatically managing fault events of data center | |
CN107577588B (zh) | 一种海量日志数据智能运维系统 | |
Ma et al. | Diagnosing root causes of intermittent slow queries in cloud databases | |
KR102118670B1 (ko) | Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법 | |
JP5444673B2 (ja) | ログ管理方法、ログ管理装置、ログ管理装置を備えた情報処理装置、及びプログラム | |
CN116755992B (zh) | 一种基于OpenStack云计算的日志分析方法及系统 | |
CN115809183A (zh) | 基于知识图谱的信创终端故障发现及处置的方法 | |
CN113190415A (zh) | 互联网医院系统监控方法、设备、存储介质及程序产品 | |
CN116010456A (zh) | 设备的处理方法、服务器和轨道交通系统 | |
CN115344416A (zh) | 异常日志筛查方法、系统、装置及计算机可读存储设备 | |
CN117194919A (zh) | 一种生产数据分析系统 | |
CN116895046B (zh) | 基于虚拟化的异常运维数据处理方法 | |
CN117270937A (zh) | 数字运营运维管理系统 | |
Gu et al. | Online failure forecast for fault-tolerant data stream processing | |
CN117220917A (zh) | 一种基于云计算的网络实时监控方法 | |
JP4850733B2 (ja) | ヘルスチェック装置及びヘルスチェック方法及びプログラム | |
CN111209131B (zh) | 一种基于机器学习确定异构系统的故障的方法和系统 | |
TR2022013419A2 (tr) | Gerçek-zamanli hata loglari üzeri̇nden ariza tahmi̇ni̇ yapan kök neden tespi̇t si̇stemi̇ | |
CN117041031A (zh) | 故障定位方法、装置以及电子设备 | |
JP2023173987A (ja) | 学習装置、監視システム、学習方法およびプログラム | |
CN115269306A (zh) | 一种基于机器学习的数据压缩方法及系统 | |
Wang | Design of Visual Log Analysis System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |