CN105653444A - 基于互联网日志数据的软件缺陷故障识别方法和系统 - Google Patents

基于互联网日志数据的软件缺陷故障识别方法和系统 Download PDF

Info

Publication number
CN105653444A
CN105653444A CN201510977321.1A CN201510977321A CN105653444A CN 105653444 A CN105653444 A CN 105653444A CN 201510977321 A CN201510977321 A CN 201510977321A CN 105653444 A CN105653444 A CN 105653444A
Authority
CN
China
Prior art keywords
daily record
log
internet
software defect
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510977321.1A
Other languages
English (en)
Other versions
CN105653444B (zh
Inventor
李影
贾统
吴中海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201510977321.1A priority Critical patent/CN105653444B/zh
Publication of CN105653444A publication Critical patent/CN105653444A/zh
Application granted granted Critical
Publication of CN105653444B publication Critical patent/CN105653444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公布了一种基于互联网日志数据的软件缺陷故障识别方法和系统,针对互联网源系统日志数据和用户系统源日志数据,将互联网源系统日志数据作为训练集并从中提取特征,通过机器学习或相似度匹配生成软件缺陷故障日志识别预测模型;针对用户系统源日志数据,分析识别得到其中表征软件缺陷故障的日志片段,从而得到针对用户系统日志的软件缺陷故障类型。云计算系统故障识别系统包括多线日志收集模块、互联网源系统日志分类器和在线日志分析与故障识别模块。本发明可实现从大量日志信息识别由软件缺陷导致的故障,快速定位故障原因,识别运行时故障并诊断故障类型,提高云计算系统的可靠性和可用性。

Description

基于互联网日志数据的软件缺陷故障识别方法和系统
技术领域
本发明属于云计算技术领域,具体涉及一种基于互联网日志数据的软件缺陷故障识别方法和系统,可实现对基于开源软件构建的云计算系统进行故障识别与诊断,提高云计算系统的可靠性和可用性。
背景技术
云计算以其按需使用的消费模式,逐渐被广泛应用于金融、商务等各个领域,云计算环境下系统的高可用性也日益成为云计算技术走向成熟的关键。然而,由于云计算系统规模逐渐扩大,异构性逐渐增强,云计算系统往往因为各种原因导致失效,如硬件故障,配置错误以及软件缺陷等,这成为威胁云计算系统可用性和可靠性的关键因素之一。
随着开源软件的广泛而迅速的使用,软件缺陷成为导致云计算系统故障的主要原因之一。一方面,软件缺陷隐藏在软件源代码中,传统的故障修复策略如重启,备份等无法达到修复效果,因此软件缺陷的定位和修复工作十分复杂,会耗费大量的人力物力。另一方面,随着当今软件规模的扩大以及分布式的特性,软件缺陷的发生率越来越高,复杂程度也逐步增加。因此,如何从众多种类的故障中识别出软件缺陷导致的故障十分必要。
日志是最直接表征系统运行状况的信息,具有重要的价值。通常情况下,系统运维人员依靠人工查看系统运行日志,以期跟踪系统状态以及发现系统故障。现有技术主要关注日志的收集,存储和基本挖掘,用于从庞大的日志集中提取系统异常状态的日志序列,并以此类序列作为特征对系统故障进行预测和诊断。迄今为止,尚未有日志挖掘技术可以自动化对故障原因进行进一步诊断,特别是识别出由软件缺陷引发的故障类型。
与此同时,一方面,云计算系统自身的特点使得其日志信息及其丰富且随着系统的运行其规模快速增加;另一方面,即使是借助自动化的故障识别工具,也无法避免系统管理人员和运营人员需要一定程度的人工查看海量的日志数据,并从中探查故障原因,特别地,软件缺陷导致的系统故障其探查难度高,更加难以快速定位和修复。这带来海量的运营成本,对云计算环境上层服务的可靠性和可用性产生巨大影响。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于互联网日志数据的软件缺陷故障识别方法和系统,利用互联网中海量的日志数据,将云计算运行系统与互联网建立关联关系,通过自动识别获取云计算系统故障并探查故障原因,特别区分出软件缺陷导致的故障,以提高云计算系统的可用性和可靠性。
本发明的核心是:首先,本发明提供的基于互联网日志数据的软件缺陷故障识别方法和系统的输入为互联网日志数据,主要包括开源软件缺陷库和问答网站,极大拓展了现有技术的日志数据源;其次,本发明创造性地将日志信息作为云计算系统与互联网知识的交集和连接,以此为基础使用互联网中的技术人员针对系统故障探查和分析知识,对云计算系统进行自动化故障探查与诊断;最后,本发明输出为已标识的日志集,包括软件缺陷故障日志等,用以帮助系统运维人员定位故障类型和原因。
本发明基于如下分析研究结果:首先,开源软件具有开放性,公开性等特征。任何人都可以在开源软件社区交流讨论,提交软件缺陷以及个人的代码分支。因此,开源软件社区往往积累的大量的软件运行信息,软件缺陷信息以及故障解决方案等。当今,如果开发人员或运营人员遇到问题的时候,他们往往会进入问答网站,如StackOverFlow等寻求帮助,与此同时,许多资深的软件开发人员都愿意在问答网站分享经验帮助他人。这样,问答网站中同样积累了大量的软件故障信息和解决方案等。其次,根据数据分析发现,不论是开源软件社区还是问答网站,人们在讨论问题时,往往会涉及问题或故障的日志,并以此作为描述问题或故障的方法。因此,日志数据通常表征某一个故障,例如,在一个缺陷报告中包含异常日志,那么当某系统运行时产生相似的异常日志时,有理由认为系统此时的故障极有可能与该缺陷有关;如果某一个问答网站中的问题或者某用户问题邮件包含相关日志时,那么当某系统运行时出现相似日志数据时,在故障识别和修复时很大程度上可以借鉴该问题相关的解决方法。因此,日志不仅可以源自系统自动产生的反映系统运行状态的数据,也可以源自开发人员所发布的缺陷报告及缺陷修复报告数据,更可能源自互联网问答网站上基于庞大知识库的交互数据。因此,日志挖掘成为系统故障识别与预测的重要方法之一。
本发明提供的技术方案是:
一种基于互联网日志数据的软件缺陷故障识别方法,针对互联网源系统日志数据和用户系统源日志数据,将互联网源系统日志数据作为训练集并从中提取特征,通过机器学习或相似度匹配生成软件缺陷故障日志识别预测模型;针对用户系统源日志数据,分析识别得到其中表征软件缺陷故障的日志片段,从而得到针对用户系统日志的软件缺陷故障类型;具体包括如下步骤:
1)收集日志数据,日志数据包括互联网源系统日志数据和用户系统源日志数据:
1A)从互联网中收集多种来源的互联网日志,对这些日志进行清洗、过滤和存储;
多种来源的互联网日志包括软件缺陷库中的日志数据,问答网站的日志数据,邮件列表中的日志数据、开源软件社区等;
1B)收集用户系统源日志数据,并对其进行预处理,包括:初步清洁、整理和结构化存储;
2)分别抽取互联网源系统日志数据和用户系统源日志数据的文本特征并提取特征向量;
3)基于互联网源系统日志数据的文本特征向量,通过离线方法建立软件缺陷故障日志识别预测模型;
4)根据软件缺陷故障日志识别预测模型,对用户系统源日志数据的文本特征向量进行在线识别,包括分类和标识,得到用户系统日志片段类型;
软件缺陷故障日志识别得到的用户系统日志片段类型可分为软件缺陷故障日志片段、非软件缺陷故障日志片段以及正常运行日志片段。
5)收集用户系统日志片段类型和在线识别过程的中间结果,对用户系统日志片段进行进一步标识,包括相关软件缺陷报告链接等,并进行标识结果的有效性验证。
针对上述基于互联网日志数据的软件缺陷故障识别方法,进一步地,可将在线日志分析与故障识别模块的软件缺陷故障识别结果进行展示,展示已标识类别的用户系统日志片段,包括软件缺陷故障日志片段,非软件缺陷日志片段和正常运行日志片段。
针对上述基于互联网日志数据的软件缺陷故障识别方法,进一步地,步骤2)采用基于文本挖掘的特征提取方法,基于日志信息的词汇序列,提取日志数据的文本特征,得到特征向量。
针对上述基于互联网日志数据的软件缺陷故障识别方法,进一步地,步骤3)基于机器学习或相似度匹配,通过离线训练方法建立得到软件缺陷故障日志识别预测模型。
针对上述基于互联网日志数据的软件缺陷故障识别方法,进一步地,所述基于机器学习通过离线训练方法建立得到软件缺陷故障日志识别预测模型,具体包括如下步骤:
基于机器学习通过离线训练方法建立得到软件缺陷故障日志识别预测模型的方法基于先聚类再分类的思路对日志进行处理,通过聚类依据日志文本特征向量划分日志集合,为每一条日志标记类别;之后通过该类别标签生成每一个软件缺陷报告或问题报告包含的日志集的特征向量,利用该特征向量使用有监督的分类学习算法,最终生成预测模型结果。具体算法如下:
设定wordvec代表从互联网源系统日志分类器获取的日志文本特征向量为:
wordvec={word1,word2,…wordn};
设定Scene代表一个软件缺陷报告或问题报告中的日志集合为:
Scene={wordvec1,wordvec2,…,wordvecn};
设定日志文本特征向量和日志来源类型(在算法中以source_tag描述)的键值对为:
wordvec-{source_tag};
以日志文本特征向量和日志来源类型(在算法中以source_tag描述)的键值对为输入,通过以下步骤输出软件缺陷导致故障日志识别预测模型
S221)TF-IDF(termfrequency–inversedocumentfrequency)是一种用于资讯检索和文本挖掘的常用加权技术,用以评估一字词对于一个文章集或一个语料库中的其中以份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时随着它在语料库中出现的频率成反比下降。对每一个日志文本特征向量元素计算TF-IDF值,并生成等长的TF-IDF向量,即将wordvec转化成等长特征向量,计为scorevector;
S222)聚类:聚类算法通常属于无监督的机器学习,常见的方法有K-MEANS,DBSCAN等,其基本原理在于利用对象的特征向量,计算不同对象之间的距离(如欧氏距离等),将距离相近的对象划分为一类,进而将整个数据集划分成不同的组别或者更多的子集。在本阶段,使用无监督聚类算法对scorevector进行聚类,并使用聚类结果标记每一条日志(算法中以cluster_tag描述),最终生成三元键值组wordvec-{source_tag}-{cluster_tag};
S223)在Scene中以日志的聚类标签cluster_tag替代日志的文本向量,即:
Scene={cluster_tag1,cluster_tag2,…,cluster_tagn}
S224)使用TF-IDF方法对Scene向量进行长度归一化处理;
S225)分类:分类算法是机器学习的一大分支,常见的方法有决策树,人工神经网络,最近邻居等。其基本原理在于通过训练集的类别标注,针对不同对象的特征向量训练基础模型参数,最终生成预测模型,并根据该预测模型输入未知类型的对象特征向量,输出对该对象类别的预测结果。本阶段以Scene向量为输入训练预测模型,最终输出预测模型的训练结果;
通过上述过程,记录聚类和分类阶段的结果及参数,具体包括:预测模型结果、聚类数目k、聚类中心点日志信息(包括互联网日志处理完毕的日志格式中的所有内容)、分类算法初始参数等,作为模型参数用于在线日志分析与故障识别。
针对上述基于互联网日志数据的软件缺陷故障识别方法,进一步地,所述基于相似度匹配通过离线训练方法建立得到软件缺陷故障日志识别预测模型,具体使用文本编辑距离作为日志文本特征向量之间的相似度表征;所述文本编辑距离是两文本之间相互转换的最小编辑操作数目;所述编辑操作是基于文本的内容与顺序特征、以字符为操作单位、操作类型包括:增加操作、删除操作和替换操作。
针对上述基于互联网日志数据的软件缺陷故障识别方法,进一步地,步骤4)所述在线识别是基于机器学习方法或相似度匹配方法进行识别;
所述机器学习方法进行在线识别具体是:通过步骤3)训练得到的软件缺陷故障日志识别预测模型标记用户系统日志的类型,再将用户系统日志序列向量化,针对用户系统日志的软件缺陷故障进行定位和标识;所述标记用户系统日志的类型具体是通过计算用户系统日志与离线聚类得到的日志中心点的日志距离,来标记用户系统日志的类型;具体执行如下操作:
设定wordvec代表从用户系统日志预处理器中获取的日志文本特征向量:
wordvec={word1,word2,…wordn}
设定Scene代表一个用户日志集合:
Scene={wordvec1,wordvec2,…,wordvecn}
以用户系统日志文本特征向量wordvec和离线聚类结果的中心点日志信息
{centervec1,centervec2,…,centerveck},k代表聚类数目为软件缺陷故障日志识别预测模型
的输入,通过以下步骤,得到用户系统日志在线识别结果:
R11)计算wordvec和centerveci(0≤i≤k)的欧式距离,取距离最小的centervec的类型
cluster_tag作为该用户系统日志的类型;
R12)使用TF-IDF方法对Scene向量进行长度归一化处理;
R13)将Scene向量输入识别模型,得到日志类型标记。
所述相似度匹配方法进行在线识别具体是:建立互联网日志库及其索引;将用户系统日志与互联网日志库进行相似度匹配,具体计算每一条用户系统日志与互联网日志库中的每一条日志的文本编辑距离,通过比对用户系统日志和互联网日志库中的日志距离,取距离最小日志的日志来源类型作为用户系统日志类型,从而识别得到日志的软件缺陷故障。
本发明还提供一种基于互联网日志数据分析的云计算系统故障识别系统,包括多线日志收集模块、互联网源系统日志分类器和在线日志分析与故障识别模块;
多线日志收集模块,用于从互联网的不同数据源中和用户系统中收集云计算系统日志数据,并对所述日志数据进行预处理;
互联网源系统日志分类器,用于将多线日志收集模块中的互联网源系统日志数据作为训练集,提取所述互联网源系统日志数据的文本特征,通过机器学习方法或相似度匹配算法,离线生成软件缺陷故障日志识别预测模型;
在线日志分析与故障识别模块,用于将多线日志收集模块中的用户系统日志输入到所述互联网源系统日志分类器生成软件缺陷故障日志识别预测模型中,识别得到日志片段的类型,进一步得到针对所述用户系统日志的软件缺陷故障类型;所述日志片段的类型包括软件缺陷故障日志片段、非软件缺陷故障日志片段和正常运行日志片段。
针对上述基于互联网日志数据的软件缺陷故障识别系统,进一步地,基于互联网日志数据分析的云计算系统故障识别系统,还可包括用户系统日志分析结果展示模块,用于接收来自所述在线日志分析与故障识别模块的软件缺陷故障识别结果,对用户系统日志进行标记与可视化展示。
针对上述基于互联网日志数据的软件缺陷故障识别系统,进一步地,多线日志收集模块包括互联网日志收集器和用户系统日志收集器:
所述互联网日志收集器将互联网日志进行清洗和结构化:通过网络爬虫和/或通过网站开放API对互联网上资源进行抓取、清洗并进行日志提取;建立描述日志的五元组{id,type,description,tags,url},其中id为日志编号;type为所述五元组所属类型;description为日志的描述信息;tags为日志所描述内容的类型或关注点;url为日志关联网页的链接地址;对每一个五元组进行过滤,提取和拆分处理,转换为互联网日志处理完毕数据格式;
所述用户系统日志收集器,用于检测并抽取用户系统日志信息,通过添加多个字段对日志进行标识,转换得到具有特定格式的用户系统日志,传递给在线日志分析与故障识别模块;所述添加字段包括:用户ID、日志ID、日志时间戳和日志文件路径。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于互联网日志数据的软件缺陷故障识别方法和系统,从互联网这个庞大的知识库中提取系统运行信息的交集-日志,通过日志挖掘利用互联网中的知识对云计算系统进行故障识别与诊断。本发明通过分析与挖掘互联网开发者社区与问答网站中的日志信息对云计算系统进行故障识别和诊断,具体从互联网中获取来自不同数据源(如开源软件社区中的软件缺陷库,问答网站等)中的云计算系统日志信息,通过计算当前系统运行日志与互联网中的云计算系统日志信息的相似度,对运行日志片段进行分类,进而判断该日志片段所表征的系统状态和故障原因。本发明采用机器学习和相似度匹配的方法,诊断云计算系统故障并识别其中由软件缺陷导致的故障情形,主要具有以下特点:
(一)本发明提供的系统和方法的关注点在于从互联网中的日志信息获取知识与特征,以此为依据对用户系统日志进行分析与诊断,主要方法是机器学习和相似度匹配。
(二)本发明提供的系统和方法通过分析互联网上开源社区中的软件缺陷库,提取软件缺陷报告中的日志信息,用以识别由软件缺陷导致的故障。
(三)本发明提供的系统和方法的数据源包括互联网中软件缺陷库,问答网站,邮件列表等,使用的方法包括机器学习和相似度匹配,不论在数据源和方法上都具有良好的拓展性和可配置性。
利用本发明的技术方案,可以实现从大量日志信息中识别出由软件缺陷导致的故障,对基于开源软件构建的云计算系统进行故障识别与诊断;帮助云计算服务运营商和系统管理人员提供自动化故障分析和诊断功能,快速定位故障原因,识别运行时故障并诊断故障类型;可提高云计算系统的可靠性和可用性。
附图说明
图1是本发明提供的基于互联网日志数据的软件缺陷故障识别方法的流程框图。
图2是本发明提供的基于互联网日志数据的软件缺陷故障识别系统的结构框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于互联网日志数据的软件缺陷故障识别方法和系统,从互联网这个庞大的知识库中提取系统运行信息的交集-日志,通过日志挖掘利用互联网中的知识对云计算系统进行故障识别与诊断。本发明通过分析与挖掘互联网开发者社区与问答网站中的日志信息对云计算系统进行故障识别和诊断,具体从互联网中获取来自不同数据源(如开源软件社区中的软件缺陷库,问答网站等)中的云计算系统日志信息,通过计算当前系统运行日志与互联网中的云计算系统日志信息的相似度,对运行日志片段进行分类,进而判断该日志片段所表征的系统状态和故障原因。
图1是本发明提供的基于互联网日志数据的软件缺陷故障识别方法的流程框图,如图1所示,首先,多线日志收集模块从互联网中爬取软件缺陷库中的日志数据,问答网站的日志数据,邮件列表中的日志数据等,并对这些日志进行清洗,过滤和存储。之后,互联网源系统日志分类器抽取互联网日志的文本特征并提取特征向量,由互联网源系统日志分类训练器基于这些特征向量和数据来源标签,通过学习或相似度匹配得到软件缺陷故障日志识别模型,并把结果传递给在线日志分析与故障识别模块。
在线过程有两种方式,一种由在线输入事件触发,另一种基于用户系统运行过程实时输入用户系统日志集合。当用户系统日志输入时,用户系统日志收集器将这些日志进行初步清洁,整理和结构化存储。用户系统日志预处理器基于这些存储日志的文本信息提取特征向量,并传递给用户系统日志分类器。用户系统日志分类器获取离线阶段训练所得识别模型,输入用户系统日志特征向量,最终计算得到用户系统日志片段类型。用户系统日志软件缺陷故障定位与标示器收集用户系统日志片段类型以及在线识别过程的中间结果,对用户系统日志片段进行进一步标识,包括相关软件缺陷报告链接等,并进行标示结果的有效性验证。最后,日志分析结果展示模块展示已标识类别的用户系统日志片段,包括软件缺陷故障日志片段,非软件缺陷日志片段和正常运行日志片段,从而帮助系统管理人员发现并定位故障类型,及时采取相应措施。
图2是本发明的基于互联网日志数据的软件缺陷故障识别系统的结构框图。系统以互联网数据源和用户系统日志数据源为输入,包括多线日志收集模块,互联网源系统日志分类器,在线日志分析与故障识别模块以及日志分析结果。各个模块通过与其他相关模块进行信息交互来完成,下面分别对不同的模块进行具体说明。
S1)多线日志收集模块
多线日志收集模块主要功能是利用网络爬虫和网站开放API,抓取网站的html文件或一定格式的数据(如json),并对网页信息进行清洗过滤提取出其中的日志信息;与此同时,本模块从用户系统中收集日志数据并对外提供接口供用户上传或输入日志文本信息。最后,本模块对日志数据进行存储备份并传递给互联网源系统日志分类器和在线日志分析与故障识别模块。本模块包括两个子模块:
S11)互联网日志收集器
本模块主要使用网络爬虫技术或通过网站开放API对互联网上资源进行抓取,清洗并进行日志提取。网络爬虫技术通常包括页面下载,url抽取与持久化,html文件解析等。
通过对html文件标签及内容的解析,互联网日志收集器为所有缺陷报告,问题或邮件建立五元组{id,type,description,tags,url},其中id描述缺陷报告,问题或邮件等的编号;type表征该五元组所属类型,包括缺陷报告,问题或邮件等;description表征缺陷报告,问题或邮件等的描述信息,通常由问题或缺陷提交人员撰写;tags表征缺陷报告,问题或邮件等所描述内容的类型或关注点;url即网页的链接地址。
下一步,互联网日志收集器对每一个五元组进行过滤,提取和拆分处理。基于日志的半结构化特征,通过正则匹配的方式,从description域中过滤并提取日志信息。首先,定义日志级别集合L={Error,Warning,Debug,Info,Exception},定义不同种类日志时间戳格式,以python正则表达式描述为例:[0-9]{4}-[0-9]{2}-[0-9]{2}用以匹配”年-月-日”的时间戳格式,如2015-12-01。通过日志级别和日志时间戳逐行匹配,进而从自然语言文本中提取系统日志。
由于一个description域中可能包含多个日志,互联网日志收集器对每条日志按照五元组进行拆分,互联网中的页面及包含的知识被转换成如表1所示结果,并传递给互联网源系统日志分类器。
表1互联网日志处理完毕数据格式举例
S12)用户系统日志收集器
用户系统日志收集器的主要功能是向用户提供上传日志接口或在用户系统中加入探针,检测并抽取日志信息,然后转换为特定格式,传递给在线日志分析与故障识别模块。本模块对用户系统日志文本不做处理,仅添加若干字段对日志进行标识,格式如表2所示。用户ID用于标识日志所属用户;日志ID标识日志序列,用以建立索引,查询等;日志时间戳记录当前日志的系统时间,用以表征用户日志集的时间序列特征;日志文件路径保存当前日志来源,通常保存文件系统中的某一挂载点中的组件日志文件。
表2用户日志处理完毕数据格式举例
S2)互联网源系统日志分类和分类训练器
互联网源系统日志分类和分类训练器的主要功能是接收初步清洗完毕的互联网日志数据,通过提取日志文本语义特征,利用机器学习和相似度匹配等算法学习软件缺陷导致故障日志预测模型,并将模型结果与参数传递给在线日志分析与故障识别模块。该模块包含两个子模块:
S21)互联网源系统日志分类器
互联网中数据信息具有较大噪声,提取的日志具有异构性,不完整性等特点,因此,特征提取需尽可能剔除细节性特征以降低噪声影响。本模块采用基于文本挖掘的特征提取方法,主要关注日志信息的词汇序列。首先,针对每一条日志以标点符号(包括空格)为分隔符,分离出若干日志文本词汇;之后,剔除所有标点符号,获取若干字母组成词汇序列;最后,将词汇大小写归一化生成日志文本特征向量,并传递给互联网源系统日志分类训练器。
S22)互联网源系统日志分类训练器
互联网源系统日志分类训练器是本模块的核心,具体涉及软件缺陷故障日志识别算法的离线训练阶段,主要功能在于通过日志特征向量及日志类型标签,利用各种算法,学习出软件缺陷故障日志识别预测模型。本模块的算法具有可拓展性和可替换性,针对不同类型或平台的日志数据使用不同的学习算法。本发明实施例采用基于机器学习和相似度匹配的两种算法的离线训练阶段。
基于机器学习的方法是基于先聚类再分类的日志处理思路,通过聚类依据日志文本特征向量划分日志集合,为每一条日志标记类别;之后通过该类别标签生成每一个软件缺陷报告或问题报告包含的日志集的特征向量,利用该特征向量使用有监督的分类学习算法,最终生成预测模型结果。
基于相似度匹配的方法使用文本编辑距离作为日志文本特征向量之间的相似度表征。所谓文本编辑距离即两文本之间相互转换的最小编辑操作数目。编辑操作分为三种类型:增加,删除,替换,以字符为操作单位,兼顾文本内容与顺序特征。本模块中,通过获取日志文本特征向量及其标签字段等,建立互联网日志库和索引,用以同用户系统日志进行相似度匹配。通过比对用户系统日志和互联网日志库中的日志距离,判定并识别软件缺陷故障日志。
S3)在线日志分析与故障识别模块
在线日志分析与故障识别模块的功能在于接收初步清洗完毕的用户系统日志,通过对用户系统日志的预处理转化为词汇序列,并生成文本特征向量;之后,基于互联网源系统日志分类器的预测模型结果,对用户系统日志集进行分类和预测识别;最后,基于预测识别结果和互联网日志来源类型,URL路径等对用户系统日志进行标识,并定位软件缺陷故障。本模块分为以下三个子模块:
S31)用户系统日志预处理器
用户系统日志通常较为完整,清晰,因此,预处理工作即根据用户系统日志分类器获取的识别模型要求的输入格式处理用户日志。处理过程为:首先,依据时间戳对用户系统日志进行序列化处理;其次,提取文本信息,剔除日志时间戳;最后,使用互联网源系统日志分类器中的处理方法,提取文本词汇序列,生成日志文本特征向量。
S32)用户系统日志分类器
用户系统日志分类器是在线日志分析与故障识别模块的核心,具体涉及软件缺陷故障日志识别算法的在线识别阶段,主要功能是对用户系统日志文本特征向量进行处理,通过已训练的识别模型标记用户系统日志类型,并将相关参数和结果传递给用户系统日志软件缺陷故障定位与标识器。本模块算法和处理流程依赖于互联网源系统日志分类训练器的算法和模型,且具有可拓展性和可替换性,本发明实施例的在线识别阶段采用基于机器学习和相似度匹配两种算法。
S33)用户系统日志软件缺陷故障定位与标识器
用户系统日志软件缺陷故障定位与标识器的主要功能是获取用户系统日志的软件缺陷故障日志识别结果和相关信息,如与用户系统日志最相似的互联网日志内容,来源,URL等,对这些日志信息进行有效性验证,然后为所有用户系统日志标记类型,故障原因和相关URL链接等,最后将这些用户系统日志分析结果打包成一定格式传递给日志分析结果展示模块,用以向用户提供可视化服务。
S4)日志分析结果展示模块
日志分析结果展示模块的主要功能是接收用户系统日志软件缺陷故障定位与标识别器传递的用户系统日志分析结果,并进行可视化。用户可以通过本模块查看已标记的日志片段,进而判定系统在某时间和组件上发生的故障类型,并及时对软件缺陷导致的故障采取措施。与此同时,本模块提供软件缺陷故障日志的相关软件缺陷报告链接,可以帮助用户快速比对系统特征,定位软件缺陷,提高系统的故障恢复能力和可用性。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于互联网日志数据的软件缺陷故障识别方法,针对互联网源系统日志数据和用户系统源日志数据,将互联网源系统日志数据作为训练集并从中提取特征,通过机器学习或相似度匹配生成软件缺陷故障日志识别预测模型;针对用户系统源日志数据,根据所述软件缺陷故障日志识别预测模型分析识别得到其中表征软件缺陷故障的日志片段,从而得到用户系统日志表征的软件缺陷故障类型;具体包括如下步骤:
1)收集日志数据,日志数据包括互联网源系统日志数据和用户系统源日志数据:
1A)从互联网中收集多种来源的互联网日志,对这些日志进行清洗、过滤和存储;
多种来源的互联网日志包括软件缺陷库中的日志数据,问答网站的日志数据,邮件列表中的日志数据等;
1B)收集用户系统源日志数据,并对其进行预处理,包括:初步清洁、整理和结构化存储;
2)分别抽取互联网源系统日志数据和用户系统源日志数据的文本特征并提取特征向量;
3)基于互联网源系统日志数据的文本特征向量,通过离线方法建立软件缺陷故障日志识别预测模型;
4)根据软件缺陷故障日志识别预测模型,对用户系统源日志数据的文本特征向量通过分类和标示进行在线识别,得到用户系统日志片段类型;
5)收集用户系统日志片段类型和在线识别过程的中间结果,对用户系统日志片段进行进一步标识,得到相关软件缺陷报告链接并进行标识结果的有效性验证。
2.如权利要求1所述基于互联网日志数据的软件缺陷故障识别方法,其特征是,步骤4)所述用户系统日志片段类型包括软件缺陷故障日志片段、非软件缺陷故障日志片段和正常运行日志片段。
3.如权利要求1所述基于互联网日志数据的软件缺陷故障识别方法,其特征是,步骤2)采用基于文本挖掘的特征提取方法,具体是基于日志信息的词汇序列,提取日志数据的文本特征,得到特征向量。
4.如权利要求1所述基于互联网日志数据的软件缺陷故障识别方法,其特征是,步骤3)基于机器学习或相似度匹配,通过离线训练方法建立得到软件缺陷故障日志识别预测模型。
5.如权利要求4所述基于互联网日志数据的软件缺陷故障识别方法,其特征是,所述基于机器学习通过离线训练方法建立得到软件缺陷故障日志识别预测模型,具体包括如下步骤:
基于机器学习通过离线训练方法建立得到软件缺陷故障日志识别预测模型的方法基于先聚类再分类的思路对日志进行处理,通过聚类依据日志文本特征向量划分日志集合,为每一条日志标记类别;之后通过该类别标签生成每一个软件缺陷报告或问题报告包含的日志集的特征向量,利用该特征向量使用有监督的分类学习算法,生成预测模型结果;包括如下过程:
设定wordvec代表从互联网源系统日志分类器获取的日志文本特征向量为:
wordvec={word1,word2,…wordn};
设定Scene代表一个软件缺陷报告或问题报告中的日志集合为:
Scene={wordvec1,wordvec2,…,wordvecn};
设定日志文本特征向量和日志来源类型(在算法中以source_tag描述)的键值对为:
wordvec-{source_tag};
以日志文本特征向量和日志来源类型source_tag的键值对为输入,通过以下步骤输出软件缺陷导致故障日志识别预测模型:
S221)对每一个日志文本特征向量元素计算TF-IDF值,并生成等长的TF-IDF向量,即将wordvec转化成等长特征向量,记为scorevector;
S222)使用K-MEANS算法对scorevector进行聚类,并使用聚类结果cluster_tag标记每一条日志,生成三元键值组wordvec-{source_tag}-{cluster_tag};
S223)在Scene中以日志的聚类标签cluster_tag替代日志的文本向量,即:
Scene={cluster_tag1,cluster_tag2,…,cluster_tagn};
S224)使用TF-IDF方法对Scene向量进行长度归一化处理;
S225)以Scene向量为输入训练分类模型,得到预测模型结果;
记录聚类和分类阶段的结果及参数,包括:聚类数目k、聚类中心点日志信息和分类算法初始参数,作为模型参数用于在线日志分析与故障识别。
6.如权利要求4所述基于互联网日志数据的软件缺陷故障识别方法,其特征是,所述基于相似度匹配通过离线训练方法建立得到软件缺陷故障日志识别预测模型,具体使用文本编辑距离作为日志文本特征向量之间的相似度表征;所述文本编辑距离是两文本之间相互转换的最小编辑操作数目;所述编辑操作是基于文本的内容与顺序特征、以字符为操作单位,所述操作类型包括:增加操作、删除操作和替换操作。
7.如权利要求4所述基于互联网日志数据的软件缺陷故障识别方法,其特征是,步骤4)所述在线识别是基于机器学习方法或相似度匹配方法进行识别;
所述机器学习方法进行在线识别具体是:通过步骤3)训练得到的软件缺陷故障日志识别预测模型标记用户系统日志的类型,再将用户系统日志序列向量化,针对用户系统日志的软件缺陷故障进行定位和标识;所述标记用户系统日志的类型具体是通过计算用户系统日志与离线聚类得到的日志中心点的日志距离,来标记用户系统日志的类型;具体执行如下操作:
设定wordvec代表从用户系统日志预处理器中获取的日志文本特征向量:
wordvec={word1,word2,…wordn};
设定Scene代表一个用户日志集合:
Scene={wordvec1,wordvec2,…,wordvecn};
以用户系统日志文本特征向量wordvec和离线聚类结果的中心点日志信息{centervec1,centervec2,…,centerveck},k代表聚类数目为软件缺陷故障日志识别预测模型的输入,通过以下步骤,得到用户系统日志在线识别结果:
R11)计算wordvec和centerveci(0≤i≤k)的欧式距离,取距离最小的centervec的类型cluster_tag作为该用户系统日志的类型;
R12)使用TF-IDF方法对Scene向量进行长度归一化处理;
R13)将Scene向量输入识别模型,得到日志类型标记;
所述相似度匹配方法进行在线识别具体是:建立互联网日志库及其索引;将用户系统日志与互联网日志库进行相似度匹配,具体计算每一条用户系统日志与互联网日志库中的每一条日志的文本编辑距离,通过比对用户系统日志和互联网日志库中的日志距离,取距离最小日志的日志来源类型作为用户系统日志类型,从而识别得到日志的软件缺陷故障。
8.一种基于互联网日志数据分析的云计算系统故障识别系统,包括多线日志收集模块、互联网源系统日志分类器和在线日志分析与故障识别模块;
多线日志收集模块,用于从互联网的不同数据源中和用户系统中收集云计算系统日志数据,并对所述日志数据进行预处理;
互联网源系统日志分类器,用于将多线日志收集模块中的互联网源系统日志数据作为训练集,提取所述互联网源系统日志数据的文本特征,通过机器学习方法或相似度匹配算法,离线生成软件缺陷故障日志识别预测模型;
在线日志分析与故障识别模块,用于将多线日志收集模块中的用户系统日志输入到所述互联网源系统日志分类器生成软件缺陷故障日志识别预测模型中,识别得到日志片段的类型,进一步得到针对所述用户系统日志的软件缺陷故障类型;所述日志片段的类型包括软件缺陷故障日志片段、非软件缺陷故障日志片段和正常运行日志片段。
9.如权利要求8所述基于互联网日志数据分析的云计算系统故障识别系统,其特征是,还包括用户系统日志分析结果展示模块,用于接收来自所述在线日志分析与故障识别模块的软件缺陷故障识别结果,对用户系统日志进行标记与可视化展示。
10.如权利要求8所述基于互联网日志数据分析的云计算系统故障识别系统,其特征是,所述多线日志收集模块包括互联网日志收集器和用户系统日志收集器;
所述互联网日志收集器,通过网络爬虫和/或通过网站开放API对互联网上资源进行抓取、清洗并进行日志提取;建立描述日志的五元组{id,type,description,tags,url},其中id为日志编号;type为所述五元组所属类型;description为日志的描述信息;tags为日志所描述内容的类型或关注点;url为日志关联网页的链接地址;对每一个五元组进行过滤,提取和拆分处理,转换为互联网日志处理完毕数据格式;
所述用户系统日志收集器,用于检测并抽取用户系统日志信息,通过添加多个字段对日志进行标识,转换得到具有特定格式的用户系统日志,传递给在线日志分析与故障识别模块;所述添加字段包括:用户ID、日志ID、日志时间戳和日志文件路径。
CN201510977321.1A 2015-12-23 2015-12-23 基于互联网日志数据的软件缺陷故障识别方法和系统 Active CN105653444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510977321.1A CN105653444B (zh) 2015-12-23 2015-12-23 基于互联网日志数据的软件缺陷故障识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510977321.1A CN105653444B (zh) 2015-12-23 2015-12-23 基于互联网日志数据的软件缺陷故障识别方法和系统

Publications (2)

Publication Number Publication Date
CN105653444A true CN105653444A (zh) 2016-06-08
CN105653444B CN105653444B (zh) 2018-07-13

Family

ID=56476716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510977321.1A Active CN105653444B (zh) 2015-12-23 2015-12-23 基于互联网日志数据的软件缺陷故障识别方法和系统

Country Status (1)

Country Link
CN (1) CN105653444B (zh)

Cited By (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294873A (zh) * 2016-08-24 2017-01-04 北京互利科技有限公司 一种机器数据的分析装置及分析方法
CN106339315A (zh) * 2016-08-19 2017-01-18 东软集团股份有限公司 定位缺陷的方法及装置
CN106598843A (zh) * 2016-11-18 2017-04-26 中国人民解放军国防科学技术大学 一种基于程序分析的软件日志行为自动识别方法
CN106708738A (zh) * 2016-12-23 2017-05-24 上海斐讯数据通信技术有限公司 一种软件测试缺陷预测方法及系统
CN106846170A (zh) * 2016-12-22 2017-06-13 国网上海市电力公司 一种发电机组跳闸监测方法及其监测装置
CN106886613A (zh) * 2017-05-03 2017-06-23 成都云数未来信息科学有限公司 一种并行化的文本聚类方法
CN107102909A (zh) * 2017-03-17 2017-08-29 北京航空航天大学 一种面向复杂软件密集型系统的故障分类方法
CN107145445A (zh) * 2017-05-05 2017-09-08 携程旅游信息技术(上海)有限公司 软件自动化测试的报错日志的自动分析方法和系统
CN107273295A (zh) * 2017-06-23 2017-10-20 中国人民解放军国防科学技术大学 一种基于文本混乱度的软件问题报告分类方法
CN107426750A (zh) * 2017-07-18 2017-12-01 上海斐讯数据通信技术有限公司 一种手机注册失败自动诊断方法及系统
CN107493275A (zh) * 2017-08-08 2017-12-19 北京盛华安信息技术有限公司 异构网络安全日志信息的自适应提取和分析方法及系统
CN107528832A (zh) * 2017-08-04 2017-12-29 北京中晟信达科技有限公司 一种面向系统日志的基线构建与未知异常行为检测方法
CN107577588A (zh) * 2017-09-26 2018-01-12 北京中安智达科技有限公司 一种海量日志数据智能运维系统
CN107666471A (zh) * 2016-07-29 2018-02-06 百度在线网络技术(北京)有限公司 用于防护网站的方法和装置
CN107784115A (zh) * 2017-11-09 2018-03-09 福建省特种设备检验研究院 一种基于编辑距离算法的特种设备故障分析方法及系统
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
CN108196971A (zh) * 2017-12-29 2018-06-22 北京五八信息技术有限公司 一种数据的分析方法、装置、终端及存储介质
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备
CN108229585A (zh) * 2018-02-05 2018-06-29 北京安信天行科技有限公司 一种日志的归类方法及系统
CN108574585A (zh) * 2017-03-08 2018-09-25 中国移动通信集团内蒙古有限公司 一种系统故障解决方案获取方法及装置
CN108600007A (zh) * 2018-04-24 2018-09-28 山东乾云启创信息科技股份有限公司 一种云平台责任追溯方法和系统
CN108628741A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 网页页面测试方法、装置、电子设备和介质
CN108845560A (zh) * 2018-05-30 2018-11-20 国网浙江省电力有限公司宁波供电公司 一种电力调度日志故障分类方法
CN109189696A (zh) * 2018-08-12 2019-01-11 华中科技大学 一种照片分类器训练方法、ssd缓存系统及缓存方法
CN109245910A (zh) * 2017-07-10 2019-01-18 中兴通讯股份有限公司 识别故障类型的方法及装置
CN109257213A (zh) * 2018-09-07 2019-01-22 广东电网有限责任公司 判断计算机终端准入验证失败的方法和装置
CN109347827A (zh) * 2018-10-22 2019-02-15 东软集团股份有限公司 网络攻击行为预测的方法、装置、设备及存储介质
CN109491860A (zh) * 2018-10-17 2019-03-19 深圳壹账通智能科技有限公司 应用程序的异常检测方法、终端设备及介质
CN109684447A (zh) * 2018-12-13 2019-04-26 贵州电网有限责任公司 一种基于文本挖掘的电网调度运行日志故障信息分析方法
CN109840157A (zh) * 2017-11-28 2019-06-04 中国移动通信集团浙江有限公司 故障诊断的方法、装置、电子设备和存储介质
CN109844781A (zh) * 2016-10-24 2019-06-04 甲骨文国际公司 用于从日志文件识别处理流并使流可视化的系统和方法
CN109902731A (zh) * 2019-02-21 2019-06-18 武汉大学 一种基于支持向量机的性能故障的检测方法及装置
CN109976990A (zh) * 2017-12-27 2019-07-05 航天信息股份有限公司 一种用于确认软件测试用例优先级的方法及系统
CN109976993A (zh) * 2017-12-27 2019-07-05 航天信息股份有限公司 一种基于文本挖掘的缺陷模式确定方法及系统
CN109992476A (zh) * 2019-03-20 2019-07-09 网宿科技股份有限公司 一种日志的分析方法、服务器及存储介质
CN110175158A (zh) * 2019-05-23 2019-08-27 湖南大学 一种基于向量化的日志模板提取方法和系统
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置
WO2019205374A1 (zh) * 2018-04-26 2019-10-31 平安科技(深圳)有限公司 模型的在线训练方法、服务器及存储介质
CN110413500A (zh) * 2019-07-31 2019-11-05 口口相传(北京)网络技术有限公司 基于大数据融合的故障分析方法及装置
CN110545195A (zh) * 2018-05-29 2019-12-06 华为技术有限公司 网络故障分析方法及装置
WO2019242108A1 (zh) * 2018-06-20 2019-12-26 扬州大学 一种基于聚类分析的软件缺陷修复模板提取方法
CN110691070A (zh) * 2019-09-07 2020-01-14 温州医科大学 一种基于日志分析的网络异常预警方法
CN110704221A (zh) * 2019-09-02 2020-01-17 西安交通大学 一种基于数据增强的数据中心故障预测方法
CN111104306A (zh) * 2018-10-26 2020-05-05 伊姆西Ip控股有限责任公司 用于应用中的错误诊断的方法、装置和计算机存储介质
CN111131248A (zh) * 2019-12-24 2020-05-08 广东电科院能源技术有限责任公司 一种网站应用安全缺陷检测模型建模方法及缺陷检测方法
CN111158997A (zh) * 2019-12-24 2020-05-15 河南文正电子数据处理有限公司 一种多日志系统的安全监测方法及装置
CN111178537A (zh) * 2019-12-09 2020-05-19 华为技术有限公司 一种特征提取模型训练方法及设备
CN111198817A (zh) * 2019-12-30 2020-05-26 武汉大学 一种基于卷积神经网络的SaaS软件故障诊断方法及装置
TWI695282B (zh) * 2018-12-28 2020-06-01 中華電信股份有限公司 分析寬頻服務設備潛在劣化機率之系統及其方法
CN111258624A (zh) * 2020-01-13 2020-06-09 上海交通大学 开源软件开发中Issue解决时间的预测方法及系统
CN111259947A (zh) * 2020-01-13 2020-06-09 国网浙江省电力有限公司信息通信分公司 一种基于多模态学习的电力系统故障预警方法和系统
CN111274118A (zh) * 2018-12-05 2020-06-12 阿里巴巴集团控股有限公司 一种应用优化处理方法、装置和系统
CN111290913A (zh) * 2020-02-04 2020-06-16 复旦大学 一种基于运维数据预测的故障定位可视化系统和方法
CN111290953A (zh) * 2020-01-22 2020-06-16 华为技术有限公司 分析测试日志的方法与装置
CN111435343A (zh) * 2019-01-15 2020-07-21 北京大学 计算机系统日志模板的自动生成和在线更新方法与系统
CN111488265A (zh) * 2020-04-27 2020-08-04 北京奇艺世纪科技有限公司 故障预测方法、装置、设备及可读存储介质
CN111711541A (zh) * 2020-06-18 2020-09-25 中国银行股份有限公司 一种故障预测方法及装置
CN111949535A (zh) * 2020-08-13 2020-11-17 西安电子科技大学 基于开源社区知识的软件缺陷预测装置及方法
CN112069069A (zh) * 2020-09-03 2020-12-11 平安信托有限责任公司 缺陷自动定位分析方法、设备及可读存储介质
CN112270490A (zh) * 2020-11-11 2021-01-26 北京优锘科技有限公司 一种基于物联网知识图谱的园区智能设施管理系统
US10915435B2 (en) 2018-11-28 2021-02-09 International Business Machines Corporation Deep learning based problem advisor
CN112488080A (zh) * 2020-12-23 2021-03-12 武汉烽火众智数字技术有限责任公司 一种基于聚类算法的故障诊断分析方法及系统
CN112511213A (zh) * 2020-11-18 2021-03-16 四川安迪科技实业有限公司 基于日志分析的缺陷定位方法及系统
CN112527631A (zh) * 2020-11-18 2021-03-19 武汉迈威通信股份有限公司 bug定位方法、系统、电子设备及存储介质
CN112955328A (zh) * 2018-11-01 2021-06-11 惠普发展公司,有限责任合伙企业 打印设备组件状态分类
CN113094200A (zh) * 2021-06-07 2021-07-09 腾讯科技(深圳)有限公司 一种应用程序的故障预测方法和装置
CN113239006A (zh) * 2021-05-12 2021-08-10 中国联合网络通信集团有限公司 日志检测模型的生成方法和装置、日志检测方法和装置
CN113238960A (zh) * 2021-06-07 2021-08-10 上海识装信息科技有限公司 一种自动指派的Bug治理的方法、装置及电子设备
CN113254329A (zh) * 2021-04-30 2021-08-13 展讯通信(天津)有限公司 基于机器学习的Bug处理方法、系统、设备及存储介质
CN113535955A (zh) * 2021-07-16 2021-10-22 中国工商银行股份有限公司 一种日志快速归类方法及装置
CN114003479A (zh) * 2021-10-31 2022-02-01 苏州浪潮智能科技有限公司 一种故障日志推送方法、计算机及存储介质
WO2022121656A1 (zh) * 2020-12-08 2022-06-16 中兴通讯股份有限公司 一种系统性能优化方法、装置、电子设备及其可读介质
CN114968813A (zh) * 2022-06-21 2022-08-30 江苏工程职业技术学院 一种面向软件仓库挖掘的缺陷定位方法
CN115048352A (zh) * 2022-08-12 2022-09-13 北京优特捷信息技术有限公司 一种日志字段提取方法、装置、设备和存储介质
WO2022246793A1 (en) * 2021-05-28 2022-12-01 Telefonaktiebolaget Lm Ericsson (Publ) A classifier model for determining a network status of a communication network from log data
CN116118154A (zh) * 2023-04-14 2023-05-16 威海华福轿车内饰有限公司 一种汽车内饰原料挤出加工控制方法及系统
CN116192612A (zh) * 2023-04-23 2023-05-30 成都新西旺自动化科技有限公司 一种基于日志分析的系统故障监测和预警系统及方法
CN116346590A (zh) * 2023-05-30 2023-06-27 国网汇通金财(北京)信息科技有限公司 一种全链路故障的定位系统
US12014283B2 (en) 2017-05-31 2024-06-18 Oracle International Corporation Systems and methods for identifying process flows from log files and visualizing the flow

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022119575A1 (en) * 2020-12-03 2022-06-09 Hewlett-Packard Development Company, L.P. Correlating data from heterogenous sources

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070240113A1 (en) * 2006-01-30 2007-10-11 Microsoft Corporation Model independent input reduction
CN102096635A (zh) * 2011-02-24 2011-06-15 北京播思软件技术有限公司 一种软件缺陷的准确定位方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070240113A1 (en) * 2006-01-30 2007-10-11 Microsoft Corporation Model independent input reduction
CN102096635A (zh) * 2011-02-24 2011-06-15 北京播思软件技术有限公司 一种软件缺陷的准确定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BENOIT BAUDRY 等: "Improving Test Suites for Efficient Fault Localization", 《28TH INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING》 *
王新平 等: "基于执行轨迹的软件缺陷定位方法研究", 《计算机科学》 *

Cited By (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107666471A (zh) * 2016-07-29 2018-02-06 百度在线网络技术(北京)有限公司 用于防护网站的方法和装置
CN106339315A (zh) * 2016-08-19 2017-01-18 东软集团股份有限公司 定位缺陷的方法及装置
CN106339315B (zh) * 2016-08-19 2019-03-22 东软集团股份有限公司 定位缺陷的方法及装置
CN106294873A (zh) * 2016-08-24 2017-01-04 北京互利科技有限公司 一种机器数据的分析装置及分析方法
CN109844781A (zh) * 2016-10-24 2019-06-04 甲骨文国际公司 用于从日志文件识别处理流并使流可视化的系统和方法
US11983639B2 (en) 2016-10-24 2024-05-14 Oracle International Corporation Systems and methods for identifying process flows from log files and visualizing the flow
CN109844781B (zh) * 2016-10-24 2024-03-22 甲骨文国际公司 用于从日志文件识别处理流并使流可视化的系统和方法
CN106598843B (zh) * 2016-11-18 2018-12-18 中国人民解放军国防科学技术大学 一种基于程序分析的软件日志行为自动识别方法
CN106598843A (zh) * 2016-11-18 2017-04-26 中国人民解放军国防科学技术大学 一种基于程序分析的软件日志行为自动识别方法
CN106846170A (zh) * 2016-12-22 2017-06-13 国网上海市电力公司 一种发电机组跳闸监测方法及其监测装置
CN106846170B (zh) * 2016-12-22 2020-12-25 国网上海市电力公司 一种发电机组跳闸监测方法及其监测装置
CN106708738A (zh) * 2016-12-23 2017-05-24 上海斐讯数据通信技术有限公司 一种软件测试缺陷预测方法及系统
CN106708738B (zh) * 2016-12-23 2020-02-11 上海斐讯数据通信技术有限公司 一种软件测试缺陷预测方法及系统
CN108574585A (zh) * 2017-03-08 2018-09-25 中国移动通信集团内蒙古有限公司 一种系统故障解决方案获取方法及装置
CN107102909A (zh) * 2017-03-17 2017-08-29 北京航空航天大学 一种面向复杂软件密集型系统的故障分类方法
CN106886613A (zh) * 2017-05-03 2017-06-23 成都云数未来信息科学有限公司 一种并行化的文本聚类方法
CN106886613B (zh) * 2017-05-03 2020-06-26 成都云数未来信息科学有限公司 一种并行化的文本聚类方法
CN107145445A (zh) * 2017-05-05 2017-09-08 携程旅游信息技术(上海)有限公司 软件自动化测试的报错日志的自动分析方法和系统
CN107145445B (zh) * 2017-05-05 2021-02-05 携程旅游信息技术(上海)有限公司 软件自动化测试的报错日志的自动分析方法和系统
US12014283B2 (en) 2017-05-31 2024-06-18 Oracle International Corporation Systems and methods for identifying process flows from log files and visualizing the flow
CN107273295B (zh) * 2017-06-23 2020-03-20 中国人民解放军国防科学技术大学 一种基于文本混乱度的软件问题报告分类方法
CN107273295A (zh) * 2017-06-23 2017-10-20 中国人民解放军国防科学技术大学 一种基于文本混乱度的软件问题报告分类方法
CN109245910A (zh) * 2017-07-10 2019-01-18 中兴通讯股份有限公司 识别故障类型的方法及装置
CN107426750A (zh) * 2017-07-18 2017-12-01 上海斐讯数据通信技术有限公司 一种手机注册失败自动诊断方法及系统
CN107528832B (zh) * 2017-08-04 2020-07-07 北京中晟信达科技有限公司 一种面向系统日志的基线构建与未知异常行为检测方法
CN107528832A (zh) * 2017-08-04 2017-12-29 北京中晟信达科技有限公司 一种面向系统日志的基线构建与未知异常行为检测方法
CN107493275A (zh) * 2017-08-08 2017-12-19 北京盛华安信息技术有限公司 异构网络安全日志信息的自适应提取和分析方法及系统
CN107577588B (zh) * 2017-09-26 2021-04-09 北京中安智达科技有限公司 一种海量日志数据智能运维系统
CN107577588A (zh) * 2017-09-26 2018-01-12 北京中安智达科技有限公司 一种海量日志数据智能运维系统
CN108228704B (zh) * 2017-11-03 2021-07-13 创新先进技术有限公司 识别风险内容的方法及装置、设备
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备
CN107784115B (zh) * 2017-11-09 2019-01-22 福建省特种设备检验研究院 一种基于编辑距离算法的特种设备故障分析方法及系统
CN107784115A (zh) * 2017-11-09 2018-03-09 福建省特种设备检验研究院 一种基于编辑距离算法的特种设备故障分析方法及系统
CN109840157A (zh) * 2017-11-28 2019-06-04 中国移动通信集团浙江有限公司 故障诊断的方法、装置、电子设备和存储介质
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
CN109976990A (zh) * 2017-12-27 2019-07-05 航天信息股份有限公司 一种用于确认软件测试用例优先级的方法及系统
CN109976993A (zh) * 2017-12-27 2019-07-05 航天信息股份有限公司 一种基于文本挖掘的缺陷模式确定方法及系统
CN108196971A (zh) * 2017-12-29 2018-06-22 北京五八信息技术有限公司 一种数据的分析方法、装置、终端及存储介质
CN108229585A (zh) * 2018-02-05 2018-06-29 北京安信天行科技有限公司 一种日志的归类方法及系统
CN108628741B (zh) * 2018-04-10 2021-10-01 平安科技(深圳)有限公司 网页页面测试方法、装置、电子设备和介质
CN108628741A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 网页页面测试方法、装置、电子设备和介质
CN108600007A (zh) * 2018-04-24 2018-09-28 山东乾云启创信息科技股份有限公司 一种云平台责任追溯方法和系统
CN108600007B (zh) * 2018-04-24 2021-07-23 山东乾云启创信息科技股份有限公司 一种云平台责任追溯方法和系统
WO2019205374A1 (zh) * 2018-04-26 2019-10-31 平安科技(深圳)有限公司 模型的在线训练方法、服务器及存储介质
CN110545195A (zh) * 2018-05-29 2019-12-06 华为技术有限公司 网络故障分析方法及装置
CN108845560B (zh) * 2018-05-30 2021-07-13 国网浙江省电力有限公司宁波供电公司 一种电力调度日志故障分类方法
CN108845560A (zh) * 2018-05-30 2018-11-20 国网浙江省电力有限公司宁波供电公司 一种电力调度日志故障分类方法
WO2019242108A1 (zh) * 2018-06-20 2019-12-26 扬州大学 一种基于聚类分析的软件缺陷修复模板提取方法
CN109189696A (zh) * 2018-08-12 2019-01-11 华中科技大学 一种照片分类器训练方法、ssd缓存系统及缓存方法
CN109189696B (zh) * 2018-08-12 2020-11-24 华中科技大学 一种ssd缓存系统及缓存方法
CN109257213B (zh) * 2018-09-07 2021-06-29 广东电网有限责任公司 判断计算机终端准入验证失败的方法和装置
CN109257213A (zh) * 2018-09-07 2019-01-22 广东电网有限责任公司 判断计算机终端准入验证失败的方法和装置
CN109491860A (zh) * 2018-10-17 2019-03-19 深圳壹账通智能科技有限公司 应用程序的异常检测方法、终端设备及介质
CN109347827A (zh) * 2018-10-22 2019-02-15 东软集团股份有限公司 网络攻击行为预测的方法、装置、设备及存储介质
CN109347827B (zh) * 2018-10-22 2021-06-22 东软集团股份有限公司 网络攻击行为预测的方法、装置、设备及存储介质
CN111104306A (zh) * 2018-10-26 2020-05-05 伊姆西Ip控股有限责任公司 用于应用中的错误诊断的方法、装置和计算机存储介质
CN112955328A (zh) * 2018-11-01 2021-06-11 惠普发展公司,有限责任合伙企业 打印设备组件状态分类
US10915435B2 (en) 2018-11-28 2021-02-09 International Business Machines Corporation Deep learning based problem advisor
CN111274118B (zh) * 2018-12-05 2024-05-14 阿里巴巴集团控股有限公司 一种应用优化处理方法、装置和系统
CN111274118A (zh) * 2018-12-05 2020-06-12 阿里巴巴集团控股有限公司 一种应用优化处理方法、装置和系统
CN109684447A (zh) * 2018-12-13 2019-04-26 贵州电网有限责任公司 一种基于文本挖掘的电网调度运行日志故障信息分析方法
TWI695282B (zh) * 2018-12-28 2020-06-01 中華電信股份有限公司 分析寬頻服務設備潛在劣化機率之系統及其方法
CN111435343A (zh) * 2019-01-15 2020-07-21 北京大学 计算机系统日志模板的自动生成和在线更新方法与系统
CN111435343B (zh) * 2019-01-15 2023-02-24 北京大学 计算机系统日志模板的自动生成和在线更新方法与系统
CN109902731A (zh) * 2019-02-21 2019-06-18 武汉大学 一种基于支持向量机的性能故障的检测方法及装置
CN109902731B (zh) * 2019-02-21 2020-12-18 武汉大学 一种基于支持向量机的性能故障的检测方法及装置
CN109992476A (zh) * 2019-03-20 2019-07-09 网宿科技股份有限公司 一种日志的分析方法、服务器及存储介质
CN110175158A (zh) * 2019-05-23 2019-08-27 湖南大学 一种基于向量化的日志模板提取方法和系统
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置
CN110413500B (zh) * 2019-07-31 2024-01-09 口口相传(北京)网络技术有限公司 基于大数据融合的故障分析方法及装置
CN110413500A (zh) * 2019-07-31 2019-11-05 口口相传(北京)网络技术有限公司 基于大数据融合的故障分析方法及装置
CN110704221B (zh) * 2019-09-02 2020-10-27 西安交通大学 一种基于数据增强的数据中心故障预测方法
CN110704221A (zh) * 2019-09-02 2020-01-17 西安交通大学 一种基于数据增强的数据中心故障预测方法
CN110691070B (zh) * 2019-09-07 2022-02-11 温州医科大学 一种基于日志分析的网络异常预警方法
CN110691070A (zh) * 2019-09-07 2020-01-14 温州医科大学 一种基于日志分析的网络异常预警方法
CN111178537B (zh) * 2019-12-09 2023-11-17 华为云计算技术有限公司 一种特征提取模型训练方法及设备
CN111178537A (zh) * 2019-12-09 2020-05-19 华为技术有限公司 一种特征提取模型训练方法及设备
CN111131248A (zh) * 2019-12-24 2020-05-08 广东电科院能源技术有限责任公司 一种网站应用安全缺陷检测模型建模方法及缺陷检测方法
CN111158997A (zh) * 2019-12-24 2020-05-15 河南文正电子数据处理有限公司 一种多日志系统的安全监测方法及装置
CN111198817A (zh) * 2019-12-30 2020-05-26 武汉大学 一种基于卷积神经网络的SaaS软件故障诊断方法及装置
CN111198817B (zh) * 2019-12-30 2021-06-04 武汉大学 一种基于卷积神经网络的SaaS软件故障诊断方法及装置
CN111259947A (zh) * 2020-01-13 2020-06-09 国网浙江省电力有限公司信息通信分公司 一种基于多模态学习的电力系统故障预警方法和系统
CN111258624A (zh) * 2020-01-13 2020-06-09 上海交通大学 开源软件开发中Issue解决时间的预测方法及系统
CN111290953A (zh) * 2020-01-22 2020-06-16 华为技术有限公司 分析测试日志的方法与装置
CN111290953B (zh) * 2020-01-22 2021-09-14 华为技术有限公司 分析测试日志的方法与装置
CN111290913A (zh) * 2020-02-04 2020-06-16 复旦大学 一种基于运维数据预测的故障定位可视化系统和方法
CN111488265A (zh) * 2020-04-27 2020-08-04 北京奇艺世纪科技有限公司 故障预测方法、装置、设备及可读存储介质
CN111711541A (zh) * 2020-06-18 2020-09-25 中国银行股份有限公司 一种故障预测方法及装置
CN111949535A (zh) * 2020-08-13 2020-11-17 西安电子科技大学 基于开源社区知识的软件缺陷预测装置及方法
CN111949535B (zh) * 2020-08-13 2022-12-02 西安电子科技大学 基于开源社区知识的软件缺陷预测装置及方法
CN112069069A (zh) * 2020-09-03 2020-12-11 平安信托有限责任公司 缺陷自动定位分析方法、设备及可读存储介质
CN112270490A (zh) * 2020-11-11 2021-01-26 北京优锘科技有限公司 一种基于物联网知识图谱的园区智能设施管理系统
CN112511213B (zh) * 2020-11-18 2022-07-22 四川安迪科技实业有限公司 基于日志分析的缺陷定位方法及系统
CN112511213A (zh) * 2020-11-18 2021-03-16 四川安迪科技实业有限公司 基于日志分析的缺陷定位方法及系统
CN112527631A (zh) * 2020-11-18 2021-03-19 武汉迈威通信股份有限公司 bug定位方法、系统、电子设备及存储介质
WO2022121656A1 (zh) * 2020-12-08 2022-06-16 中兴通讯股份有限公司 一种系统性能优化方法、装置、电子设备及其可读介质
CN112488080A (zh) * 2020-12-23 2021-03-12 武汉烽火众智数字技术有限责任公司 一种基于聚类算法的故障诊断分析方法及系统
CN113254329A (zh) * 2021-04-30 2021-08-13 展讯通信(天津)有限公司 基于机器学习的Bug处理方法、系统、设备及存储介质
CN113239006A (zh) * 2021-05-12 2021-08-10 中国联合网络通信集团有限公司 日志检测模型的生成方法和装置、日志检测方法和装置
WO2022246793A1 (en) * 2021-05-28 2022-12-01 Telefonaktiebolaget Lm Ericsson (Publ) A classifier model for determining a network status of a communication network from log data
CN113238960A (zh) * 2021-06-07 2021-08-10 上海识装信息科技有限公司 一种自动指派的Bug治理的方法、装置及电子设备
CN113094200B (zh) * 2021-06-07 2021-08-24 腾讯科技(深圳)有限公司 一种应用程序的故障预测方法和装置
CN113094200A (zh) * 2021-06-07 2021-07-09 腾讯科技(深圳)有限公司 一种应用程序的故障预测方法和装置
CN113535955A (zh) * 2021-07-16 2021-10-22 中国工商银行股份有限公司 一种日志快速归类方法及装置
CN114003479A (zh) * 2021-10-31 2022-02-01 苏州浪潮智能科技有限公司 一种故障日志推送方法、计算机及存储介质
CN114003479B (zh) * 2021-10-31 2024-04-19 苏州浪潮智能科技有限公司 一种故障日志推送方法、计算机及存储介质
CN114968813A (zh) * 2022-06-21 2022-08-30 江苏工程职业技术学院 一种面向软件仓库挖掘的缺陷定位方法
CN115048352A (zh) * 2022-08-12 2022-09-13 北京优特捷信息技术有限公司 一种日志字段提取方法、装置、设备和存储介质
CN116118154A (zh) * 2023-04-14 2023-05-16 威海华福轿车内饰有限公司 一种汽车内饰原料挤出加工控制方法及系统
CN116118154B (zh) * 2023-04-14 2023-08-22 威海华福轿车内饰有限公司 一种汽车内饰原料挤出加工控制方法及系统
CN116192612A (zh) * 2023-04-23 2023-05-30 成都新西旺自动化科技有限公司 一种基于日志分析的系统故障监测和预警系统及方法
CN116346590A (zh) * 2023-05-30 2023-06-27 国网汇通金财(北京)信息科技有限公司 一种全链路故障的定位系统
CN116346590B (zh) * 2023-05-30 2023-07-25 国网汇通金财(北京)信息科技有限公司 一种全链路故障的定位系统

Also Published As

Publication number Publication date
CN105653444B (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN105653444B (zh) 基于互联网日志数据的软件缺陷故障识别方法和系统
CN104598367B (zh) 数据中心故障事件管理自动化系统及方法
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
CN109871401A (zh) 一种时间序列异常检测方法及装置
CN106201871A (zh) 基于代价敏感半监督的软件缺陷预测方法
KR102353545B1 (ko) 재난대응 추천방법 및 그 장치
CN107111625A (zh) 实现数据的高效分类和探索的方法和系统
US11153144B2 (en) System and method of automated fault correction in a network environment
CN105893208A (zh) 基于隐半马尔可夫模型的云计算平台系统故障预测方法
CN111538741B (zh) 一种面向警情大数据的深度学习分析方法及系统
CN107292744A (zh) 基于机器学习的投资趋势分析方法及其系统
CN108985467A (zh) 基于人工智能的二次设备精益化管控方法
CN114201374A (zh) 基于混合机器学习的运维时序数据异常检测方法及系统
CN111949480A (zh) 一种基于组件感知的日志异常检测方法
CN114580978A (zh) 一种环评报告质量检查系统及其方法
CN107493275A (zh) 异构网络安全日志信息的自适应提取和分析方法及系统
CN109684531A (zh) 一种对用户评价进行情感分析的方法和装置
CN117009119A (zh) 一种面向云原生的微服务智能运维系统、方法及应用
CN115660645A (zh) 一种维修人员技能评估方法、装置、设备及存储介质
CN115618926A (zh) 一种面向纳税人企业分类的重要因子提取方法及装置
Wang et al. LogOnline: A Semi-Supervised Log-Based Anomaly Detector Aided with Online Learning Mechanism
KR20130092220A (ko) 소셜 시그널 기반의 온라인 미디어 재조직화 장치
Farha Fake News Detection Using Machine Learning: An Exhaustive Review
Deshpande et al. A Time Series Classifier-Based Ensemble for Predictive Maintenance of Machines
CN117648214A (zh) 一种异常日志处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant