CN105824718A - 基于问答网站知识的软件配置故障自动修复方法和系统 - Google Patents

基于问答网站知识的软件配置故障自动修复方法和系统 Download PDF

Info

Publication number
CN105824718A
CN105824718A CN201610202074.2A CN201610202074A CN105824718A CN 105824718 A CN105824718 A CN 105824718A CN 201610202074 A CN201610202074 A CN 201610202074A CN 105824718 A CN105824718 A CN 105824718A
Authority
CN
China
Prior art keywords
answer
question
data
log
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610202074.2A
Other languages
English (en)
Other versions
CN105824718B (zh
Inventor
李影
贾统
岳阳
吴中海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201610202074.2A priority Critical patent/CN105824718B/zh
Publication of CN105824718A publication Critical patent/CN105824718A/zh
Application granted granted Critical
Publication of CN105824718B publication Critical patent/CN105824718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种基于问答网站知识的软件配置故障自动检测与修复的方法和系统,包括在线阶段和离线阶段;离线阶段对问答网站数据进行爬取,得到问题网站中的问题和答案;记录问题和答案的对应关系,建立问题日志库;将提取得到的修复方法和指令存入修复指令仓库;在线阶段收集用户系统数据,包括用户系统运行日志和用户系统文件目录;通过计算用户系统运行日志和问题日志的相似度定位用户系统故障,通过搜索修复指令仓库得到相应修复指令,生成相应的故障修复脚本。本发明可实现对基于开源软件构建的云计算系统进行软件配置故障诊断与修复,提高云计算系统的可靠性和可用性。

Description

基于问答网站知识的软件配置故障自动修复方法和系统
技术领域
本发明涉及云计算技术,尤其涉及一种基于问答网站知识的软件配置故障自动检测与修复的方法和系统。
背景技术
随着开放软件如OpenStack、Hadoop、Spark等的广泛而迅速的使用以及其与日俱增的复杂性,其软件配置与参数调整日益成为一项复杂且易出错的工作。软件配置引发的故障频繁发生,成为影响包括基于OpenStack的云计算系统、基于Hadoop的大数据平台等在内的基于开放软件的分布式系统可用性、可靠性和性能的重要原因。更为严重的是,分布式系统软件通常包括各种组件和程序模块,不论是同一程序模块内部的相互协作,还是不同组件之间的相互协作,都需要详细的配置,大量配置参数以及这些配置参数之间的相互影响和依赖关系更进一步地加大了软件配置的复杂性,使得软件配置故障难以避免、探测以及修复。
为快速定位及修复软件配置故障,现有的方法使用系统日志挖掘的手段对系统运行状态进行跟踪、监测异常,并人工进行配置故障修复。日志是最直接表征系统运行状况的信息,具有重要的价值。通常情况下,系统运维人员依靠人工查看系统运行日志,以期跟踪系统状态以及定位系统故障。现有技术主要关注日志的收集、存储和基本挖掘,通过对庞大的日志集挖掘所获得的知识来对系统故障进行预测和诊断。对于软件配置所引发的故障,现有技术手段主要通过在定位故障原因后人工查询相关配置文件,手动对配置文件中的错误进行修复。
一方面,云计算系统自身的特点使得日志信息极其丰富,且随着系统运行其规模快速增加,即使借助自动化的故障识别工具,也无法避免在一定程度上需要系统和运行人员通过人工查看海量的日志数据,并从中分析故障原因;另一方面,目前尚缺乏能够自动化探测、修改错误配置参数的自动化软件配置故障的修复工具,借助这类工具,技术人员能够快速定位软件配置故障并生成修复脚本。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于问答网站知识的软件配置故障自动检测和修复方法与系统,利用问答网站中的信息如故障日志和解决方案,将分布式系统软件运行状态与互联网知识建立关联,从而利用互联网知识检测到配置故障并修复。
本发明提供的技术方案是:
一种基于问答网站知识的软件配置故障自动修复方法,包括在线阶段和离线阶段;
离线阶段对问答网站数据进行爬取,提取得到问题网站中的问题和答案;问题包括问题日志数据,答案包括修复方法和指令;记录问题和答案的对应关系,建立问题日志库;将提取得到的修复方法和指令存入修复指令仓库;
在线阶段收集用户系统数据,用户系统数据包括用户系统运行日志和用户系统文件目录;通过计算用户系统运行日志和问题日志的相似度,定位用户系统故障,通过搜索修复指令仓库得到相应修复指令,生成相应的故障修复脚本;根据故障修复脚本实现修复用户系统故障。
针对上述基于问答网站知识的软件配置故障自动修复方法,进一步地,所述离线阶段具体执行如下步骤:
21)对问答网站数据进行爬取,提取得到问答网站中的问题和答案,具体是:首先通过过滤问答网站数据得到与故障配置相关的可用问题页面,再从所述可用问题页面中提取得到故障包含的问题日志数据和对应的答案数据;
21a)每一个问题包括一条或多条问题日志信息,针对步骤21)得到的问题日志数据进行过滤清洗,提取问题日志特征生成问题日志特征向量,获得问题与问题日志特征向量的对应关系,将问题、问题日志特征向量和对应关系存储,生成问题日志库;
21b)针对步骤21)得到的答案数据,通过文本分析提取答案数据中的指令和文件操作,具体是:对答案数据进行切分,对切分成的每一部分进行归类并标注相应标签,所述标签类型分别是:描述,文件路径,命令,配置,日志和代码;所述切分是使用解决方案和文件路径作为分隔符,将答案数据划分为多个部分,每个部分被标注为上述标签类型中的一种类型;由此将所述答案数据转换为标签的有序组合;
21b1)针对步骤22)转换后得到的答案内容,设置三种修复模式:第一种修复模式为{文件路径,配置};第二种修复模式为{文件路径,配置,配置};第三种修复模式为{命令,配置};
21b2)利用修复模式匹配算法将问题修复方法从答案数据中提取出来,每个答案数据提取得到一个或多个问题修复方法;针对提取得到的问题修复方法设置操作类型;针对提取出的每个问题修复方法确定相应的操作类型;由此,将每个答案数据转换成为由设置操作类型的一个或多个问题修复方法组成的一个修复指令;将修复指令存入修复指令仓库,供修复用户系统配置故障使用。
针对上述基于问答网站知识的软件配置故障自动修复方法,进一步地,步骤21)所述通过过滤问答网站数据得到与故障配置相关的可用问题页面,所述问答网站数据为爬虫收集到的HTML页面;通过过滤具有以下特征的页面,得到与故障配置相关的可用问题页面:
2a)无回答的页面;
2b)未含有解决方案的页面;解决方案指问题回答中的代码片段,包括程序代码、可执行命令、文件路径配置文件内容,包括html文件中<code></code>标签包含的内容;
2c)未含有文件路径的页面;
2d)未含有配置内容的页面,所述配置内容为xml格式。
针对上述基于问答网站知识的软件配置故障自动修复方法,进一步地,步骤21a)所述提取问题日志特征生成问题日志特征向量,具体通过基于文本挖掘的特征提取方法,包括如下步骤:
首先,针对每一条日志以标点符号为分隔符,分离出若干日志文本词汇;
然后,删除所有标点符号,获取由若干词汇组成词汇序列;
之后,将词汇大小写归一化生成问题日志文本特征向量,其形式表征为{word1,word2,word3,…,wordn},其中,wordi(i=1..n)表征由标点符号作为分隔符的将整个日志拆分成的一个字符串;
最后,将日志数据和日志文本特征向量存储,生成问题日志库。
针对上述基于问答网站知识的软件配置故障自动修复方法,进一步地,步骤21b2)所述具体执行如下操作:
首先,仿照情感词典建立操作词典,操作词典中收录了答案信息中的描述中出现的各种修改操作词语作为关键词,并将这些关键词映射到上述的三种修改类型,如果描述中不存在关键词,则默认为增加操作;
然后,对描述中的每个关键词的权重通过式1进行计算得到:
weight(keyword)=1/edistance(keyword,FilePath)(式1)
式1中,keyword为关键词;FilePath为问题页面包含的相关答案中的标注为文件路径的部分内容;distance(keyword,FilePath)为标注为描述部分的关键词到标注为文件路径内容的文本距离;weight(keyword)为关键词keyword的权重。
之后,根据计算出的各个关键词的权重,利用式2投票的方式得到修复类型:
weight(OperationTypei)=∑weight(keywordj)(式2)
OperationTypei∈{add,delete,update}(式3)
式2~3中,keyword为关键词;OperationType为操作类型,add为增加操作,delete为删除操作,update为更新操作;weight(OperationTypei)为相应操作类型的权重,该权重的值表示当前问题页面中相关答案的含义建议提问者使用该操作类型的可能性;keywordj为映射到该修复操作的关键词;
最后,取权重最大的作为修复操作中的操作类型,由此生成一个修复操作,表示为式5:
Operationi={OperationType,RecoveryFilePath,ConfContent}(式5)
所述一个修复操作由三项信息组成,分别为操作类型、提取修复模式识别算法生成的修复方法中的文件路径、配置;
最终,一系列修复操作组成修复指令,所述修复指令用式4表示:
EditScript={Operation1,Operation2,…,Operationn}(式4)
式4~式5中,EditScript为修复指令;Operation为修复操作;OperationType为操作类型;RecoveryFilePath为需修复的文件的文件路径;ConfContent为配置内容;
将修复指令存入修复指令仓库,作为提取的原始指令信息。
针对上述基于问答网站知识的软件配置故障自动修复方法,进一步地,所述在线阶段具体执行如下步骤:
11)当有用户系统日志输入时,获取用户系统文件目录信息和用户系统运行日志,分别转换为目录特定格式和系统日志特定格式;
12)对用户系统运行日志进行预处理,提取得到用户系统日志的特征向量;
13)当系统出现故障或者用户提交故障片段日志时,通过查询所述问题日志库索引获取问答网站日志数据和问题日志文本特征向量,通过计算得到用户日志与问答网站问题日志之间的相似度,通过相似度匹配的方法定位用户系统的配置故障,获得用户故障定位信息;
14)根据用户故障定位信息,从所述修复指令仓库中提取得到修复该故障的修复指令,所述修复指令中的动态部分是从用户的系统文件目录信息提取得到的文件路径;
15)根据步骤14)得到的修复指令包含的待修复配置文件,查找得到用户系统中相应的配置文件,生成修复脚本,所述修复脚本是能够对用户系统中的配置文件进行修改的可执行脚本;
16)运行修复脚本,修复软件配置故障。
针对上述基于问答网站知识的软件配置故障自动修复方法,进一步地,步骤11)所述系统日志特定格式包括五个属性,分别为:用户ID、日志ID、日志内容、日志时间戳、日志文件路径;所述用户ID用于表示日志所属用户;日志ID表示日志序列,用以建立索引,查询等;日志时间戳记录当前日志的系统时间,用以表征用户日志集的时间序列特征;日志文件路径保存当前日志来源;所述目录特定格式包括三个属性,分别为:目录ID、上级目录、当前目录;所述目录ID用于标识每个目录;上级目录表示该目录的上级目录名称;当前目录为当前目录名称。
针对上述基于问答网站知识的软件配置故障自动修复方法,进一步地,步骤13)所述用户日志与问答网站问题日志之间的相似度,具体为采用相似度匹配方法计算得到的用户日志与问答网站日志之间的编辑距离;所述编辑距离为两文本之间相互转换的最小编辑操作数目;所述编辑操作类型分为:增加、删除、替换;所述相似度匹配方法通过比对用户系统日志与问答网站日志库中的编辑距离,将日志片段定位到一个或多个问答网站中的问题,由此得到用户故障定位信息。
针对上述基于问答网站知识的软件配置故障自动修复方法,进一步地,步骤15)所述查找得到用户系统中相应的配置文件,具体执行如下操作:
首先,定义文件名的相似度函数similar(file1,file2),该相似度函数以一个范围为0到1的数字表示file1和file2文件名的相似度;
然后,将用户目录结构数据以树结构存储,从根目录开始逐层遍历每层的所有文件名,每次遍历都选出与所述修复指令中的文件名相似度最高的文件作为候选文件;
如果当前目录下的候选文件相比上一层的候选文件更相似,则该文件为候选文件,否则候选文件不变;
最后,遍历到无下级目录时停止,将此时的候选文件作为需要修复的文件。
针对上述基于问答网站知识的软件配置故障自动修复方法,进一步地,步骤15)所述根据修复指令包含的待修复配置文件查找得到用户系统中相应的配置文件,生成问题修复脚本,具体使用linuxshell语法生成所述修复脚本。
本发明还提供基于问答网站知识的软件配置故障自动修复系统,如图2所示。该系统以问答网站数据和用户系统数据作为输入,包含双线数据收集、在线日志分析与故障定位、故障修复脚本生成等三个模块:
双线数据收集模块包括问答网站数据收集器和用户系统数据收集器两个子模块,功能在于收集问答网站和用户系统日志的数据,为另两个模块提供数据支持。双线数据收集模块的问答网站数据收集器会从问答网站上收集配置故障问题相关的日志数据及答案数据,用户日志收集器从用户系统中收集用户日志数据,其中用户日志数据和问题的日志数据会传递给在线日志分析与故障定位模块,答案数据会传递给故障修复脚本生成模块。
在线日志分析与故障定位模块包括日志预处理器和用户故障日志定位器两个子模块,功能在于对获取的日志数据进行预处理,并将用户故障匹配到一个或几个问答网站的问题上。日志预处理器以问答网站的问题日志数据和用户系统日志数据作为输入,对日志数据进行预处理。经过预处理后,用户故障日志定位器利用相似度匹配的方法,计算用户日志和问答网站问题日志间的距离,将用户日志中的故障问题匹配到问答网站的问题,并将结果传递给故障修复脚本生成模块。
故障修复脚本生成模块包含修复指令提取器、修复指令仓库和修复脚本生成器子模块,功能在于自动生成用于修复用户配置故障的脚本。修复指令提取器以问答网站答案数据为输入,通过分析网站答案数据,将答案中的指令或文件操作提取出来,作为该问题的解决方案。修复脚本生成器根据用户故障定位结果,提取相应问题的解决方案,并根据用户系统文件目录,基于shell脚本语法,生成该问题的修复脚本。最后将脚本提供给用户用于解决用户系统的软件配置故障。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于问答网站知识的软件配置故障自动检测与修复方法与系统,从问答网站中收集丰富的、来源于实际应用的软件配置故障的问题日志与相关答案等信息,分析与挖掘日志信息进而对用户系统的软件配置故障进行识别和定位。再通过计算用户系统日志与问答网站问题中包含的日志间的相似度,定位该配置故障,并从相对应的问题答案中得到问题的解决方案,进而结合用户文件系统目录结构,生成修复脚本。整个过程的实现为自动化处理,一方面充分利用问答网站所积累的丰富的配置故障类型及相关解决方案等知识,通过知识挖掘,可以自动化定位系统故障,并找到相关问题描述,原因或解决方案,简化系统运维人员通过阅读日志信息,手动定位配置错误的过程,极大节省运维人员的寻找配置错误解决方法的时间和精力;另一方面,通过从问答网站知识中所获取的关于软件配置错误的问题描述与答案中的解决方案,自动生成配置修复脚本,提高了故障修复的效率和准确性。本发明可以实现对基于开源软件构建的云计算系统进行软件配置故障诊断与修复,提高云计算系统的可靠性和可用性。
附图说明
图1是本发明提供的基于问答网站知识的软件配置故障自动修复方法的流程框图。
图2是本发明实施例提供的基于问答网站知识的软件配置故障自动修复系统的结构框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于问答网站知识的软件配置故障自动检测与修复方法与系统,从问答网站中收集软件配置故障的问题日志与相关答案等信息,分析与挖掘日志,通过计算用户系统运行日志与问答网站日志的相似度,对用户配置故障进行识别和定位,根据问答网站对应问题的答案得到解决方案,并结合用户系统文件目录生成相应的故障修复脚本,修复用户系统故障。
图1是本发明提供的基于问答网站知识的软件配置故障自动检测与修复方法的流程框图;图2是本发明实施例提供的基于问答网站知识的软件配置故障自动修复系统的结构框图。
实施例提供的基于问答网站知识的软件配置故障自动修复系统以问答网站数据和用户系统数据作为输入,包括双线数据收集、在线日志分析与故障定位、故障修复脚本生成等三个模块。整个系统流程如下:
系统流程分为在线和离线阶段:在线阶段主要是对用户系统数据进行收集和对用户系统运行日志进行收集和处理;离线阶段主要是对问答网站数据进行爬取以及提取问题答案中的修复方法和指令。
在线阶段首先由运行日志收集器收集用户系统运行日志(也可以是用户提交的日志片段),由静态系统信息收集器收集系统信息,主要是系统和应用文件路径和基本信息。系统日志由日志预处理器进行清洗过滤和存储,当系统出现故障或者用户提交故障片段日志,用户故障日志定位器会根据离线处理的数据结果识别故障日志并对故障进行定位。
离线阶段首先由问答网站收集器分别收集问题日志和相关答案,然后对问题回答部分进行分割并标注相应标签,根据修复模式进行识别并提取配置故障修复相关内容,最终生成修复指令并存入修复指令仓库。对于问题日志部分需要进行过滤清洗和存储,同时记录问题日志和问题答案的对应关系,建立问题日志库,以便在线过程通过计算用户系统日志和问题日志的相似度,定位用户系统故障进而提取相关答案中的解决方案。
修复脚本生成器是系统流程的最后一步,它负责整合在线和离线处理的所有数据,包括用户故障日志,问题日志,同问题答案相对应的修复指令和用户系统静态数据信息,主要是文件结构。修复脚本生成器根据用户故障定位器的定位结果(某一个或一些问题页面),从修复指令仓库查找由这些问题页面中包含的答案提取出的修复指令,然后根据修复指令包含的待修复配置文件查找用户系统中相同或相似配置文件,最终使用linuxshell语法生成对用户系统中的某配置文件进行修改的可执行脚本。
具体地,系统的流程如图1所示,包括如下步骤:
首先,双线数据收集模块的问答网站数据收集器从问答网站中搜集问题日志数据和答案数据。对于日志数据进行清洗、过滤和存储,之后传递给在线日志分析与故障定位模块。对于答案数据,经简单清洗后传递给故障修复脚本生成模块。
当有用户系统日志输入时,运行日志收集器对用户系统日志进行初步清洗、整理和存储后,传递给日志预处理器提取特征向量。用户故障日志定位器计算用户日志与问答网站日志间的相似度,根据相似度定位用户系统的配置故障,生成用户系统的配置文件路径,将结果传递给故障修复脚本生成模块。故障修复模块根据用户故障定位信息从修复指令仓库中提取修复该故障的修复指令,同时迭代匹配用户系统文件路径,最后修复脚本生成器生成修复脚本,用户可直接运行修复脚本修复软件配置故障。
本实施例提供的基于问答网站知识的软件配置故障自动修复系统中,各个模块的操作通过与其他相关模块进行信息交互来完成,下面分别对不同的模块进行具体说明。
S1)双线数据收集模块
双线数据收集模块主要功能是利用网络爬虫和网站开放API,抓取网站的html文件或一定格式的数据(如json),并对网页信息进行清洗过滤提取其中的问题日志数据和答案数据;与此同时,双线数据收集模块从用户系统中收集日志数据并对外提供接口供用户上传或输入日志文本信息,同时也会收集静态的系统信息。最后,双线数据收集模块对日志数据进行存储备份并传递给在线日志分析与故障定位模块,对答案数据进行提取存储并传递给故障修复脚本生成模块。双线数据收集模块包括问答网站数据收集器和用户系统数据收集器两个子模块:
S11)问答网站数据收集器
问答网站数据收集器包括问答网站答案收集器和问答网站问题收集器,主要使用网络爬虫技术或通过网站开放API对问答网站上的问题日志和答案数据进行抓取,清洗并进行提取。网络爬虫技术通常包括页面下载,url抽取与持久化,html文件解析等。
对于爬虫收集到的HTML页面,过滤具有以下特征的页面:
2a)无回答的问题页面;
2b)未含有解决方案的页面;解决方案指问题回答中的代码片段,包括程序代码、可执行命令、文件路径配置文件内容等,通常是html文件中<code></code>标签包含的内容;
2c)未含有文件路径的页面;利用正则表达式对文件路径进行检索,典型的文件路径包括多个“/”符号,通常具有“.xml”或“.conf”文件扩展名;
2d)未含有配置内容的回答;配置内容通常是xml格式的,使用正则表达式可以进行识别;
过滤完毕结果即故障配置相关的可用问题页面,从中提取得到故障包含的日志数据和对应的答案数据。
然后对问答网站的日志数据进行处理,提取日志特征。由于这些数据信息具有较大的噪声,提取的日志具有异构性,不完整性等特点,因此,针对问答网站日志数据的特征提取需尽可能过滤掉细节特征以降低噪声影响。本模块采用基于文本挖掘的特征提取方法,主要关注日志信息的词汇序列。首先,针对每一条日志以标点符号(包括空格)为分隔符,分离出若干日志文本词汇;之后,删除所有标点符号,获取由若干词汇组成词汇序列;最后,将词汇大小写归一化生成最终日志文本特征向量,其形式表征为{word1,word2,word3,…,wordn},其中,wordi表征由标点符号作为分隔符,将整个日志拆分成的若干字符串之一;最后将日志数据及其日志文本特征向量生成问题日志库,并传递给用户故障日志定位器。
S12)用户系统数据收集器
用户系统数据收集器包括运行日志收集器和静态系统信息收集器,主要功能是向用户提供上传日志接口或在用户系统中加入探针,检测并抽取日志信息,然后转换为特定格式,传递给在线日志分析与故障定位模块;此外还会扫描系统的文件目录,传递给故障修股脚本生成模块。
用户系统数据收集器对收集到的用户系统运行日志文本不做处理,仅添加若干字段对日志进行表示,处理后的日志属性格式如表1所示的系统日志特定格式。系统日志特定格式包括五个属性,分别为:用户ID、日志ID、日志内容、日志时间戳、日志文件路径;用户ID用于表示日志所属用户;日志ID表示日志序列,用以建立索引,查询等;日志时间戳记录当前日志的系统时间,用以表征用户日志集的时间序列特征;日志文件路径保存当前日志来源,通常保存文件系统中的某一挂载点中的组件日志文件。
表1用户日志处理完毕数据格式举例
用户系统数据收集器还会扫描用户系统的文件目录结构(静态系统信息),通过逐层遍历所有文件夹,将文件目录保存为特定格式,目录特定格式包括三个属性,分别为:目录ID、上级目录、当前目录;格式如表2所示。目录ID用于标识每个目录;上级目录表示该目录的上级目录名称;当前目录为当前目录名称。
表2用户文件目录数据格式举例
目录ID 上级目录 当前目录
82 /usr /local
S2)在线日志分析与故障定位模块
在线日志分析与故障定位模块的主要功能是接收用户系统日志数据并进行过滤、清洗和结构化存储,通过提取日志文本语义特征,利用相似度匹配等算法对软件配置故障进行定位,并将结果传递给故障修复脚本生成模块。在线日志分析与故障定位模块包括日志预处理器和用户故障日志定位器两个子模块:
S21)用户系统日志预处理器
用户系统日志预处理器接收用户系统数据收集器收集得到的用户系统日志数据,对这些日志数据进行预处理。对用户日志数据预处理的方法同问答网站日志数据预处理方法相同,生成用户系统日志的文本特征向量,然后传递给用户故障日志定位器。
S22)用户故障日志定位器
用户故障日志定位器接收预处理过的用户日志数据及其文本特征向量,同时查询问题日志库索引获取问答网站日志数据及其文本特征向量。然后使用相似度匹配的方法,通过计算用户日志与问答网站日志间的编辑距离,匹配出与用户日志相似的问题日志。所谓编辑距离即两文本之间相互转换的最小编辑操作数目。编辑操作分为三种类型:增加,删除,替换,以字符为操作单位,兼顾文本内容与顺序特征。本模块的具体流程包括:逐一计算用户日志的文本特征向量与问题日志库中所有问题日志的文本特征向量之间的编辑距离,取距离最近的若干问题日志,通过问题日志与问答网站问题的对应关系(问题页面包含该问题日志),得到若干相关的问题ID,传递给故障修复脚本生成模块。
S3)故障修复脚本生成模块
故障修复脚本生成模块的主要功能是从问题答案中提取修复指令存入修复指令仓库;根据用户故障定位得到的问题ID,从修复指令仓库中提取修复该问题的修复指令,生成修复脚本输出给用户。故障修复脚本生成模块主要包含修复指令提取器、修复指令仓库和修复脚本生成器子模块:
S31)修复指令提取器
修复指令提取器接收从问答网站上收集到的答案数据,通过分析其中的文本,提取答案中的指令和文件操作,对答案数据进行切分并对切分完毕的每一部分进行归类并标注相应标签,标签有6种,分别是描述,文件路径,命令,配置,日志和代码。描述表示回答者的自然语言描述;文件路径表示答案中出现的文件;命令表示答案中包含的可执行指令;配置表示答案中的配置文件内容或配置信息;日志表示用于描述系统状态的控制台日志或系统日志;代码表示应用程序代码。切分方法是使用解决方案(html文件中<code></code>标签中内容)和文件路径作为分隔符,划分整体答案数据。划分完毕的答案数据包括若干部分(包括解决方案和文件路径),其中每一部分可被标识为这6种标签之一。
在这一阶段,首先提取解决方案部分(html文件中<code></code>标签中内容)和文件路径部分,解决方案提取通过html文件处理,文件路径部分通过正则匹配文件路径格式(包括“/”分隔符以及.xml或.conf文件后缀)。如果切分的部分不是解决方案和文件路径,将其标识为描述;然后,判断解决方案部分的类型。通常,解决方案中包含所有的与软件或系统相关的内容,可能为命令,配置,日志和代码,每一种不同的数据类型都具备其相应的数据格式,如配置内容通常是xml格式,日志数据通常具有时间戳,严重等级等。因此,通过正则匹配的方法,将解决方案部分标注为这4类标签之一。
根据问答网站数据收集器对网页的过滤情况,将答案中的信息根据其内容将其划分为上述六种标签类型,答案数据被转换为这六种标签的有序组合。基于转换后的答案内容,定义三种修复模式:第一种修复模式为{文件路径,配置};第二种修复模式为{文件路径,配置,配置};第三种修复模式为{命令,配置}(此处命令指文件操作相关的命令,例如vi,nano等)。
利用修复模式识别算法将特定的答案信息按照这三种模式提取出来,得到了解决该问题的修复方法。修复模式识别的具体方法的伪代码如下算法1所示:
然后,需要判定提取出的修复方法的修复类型,修复类型被定义为如下三种,包括增加操作类型、删除操作类型和更新操作类型:
增加(add),在配置文件中增加一些配置内容。
删除(delete),从配置文件中删除一些配置内容。
更新(update),将配置文件中的内容替换为新的配置内容。
判断对应的修复类型,需仿照情感词典建立操作词典,操作词典中收录了答案信息中的描述里出现的各种修复操作词语(如add,replace,delete,revise等)作为关键词,并将这些关键词映射到上述的三种修复类型,如果描述中不存在关键词,则默认为增加操作,同时从修复方法中提取所包含的文件路径。然后对描述中的每个关键词的权重weight(keyword)进行计算,权重函数与关键词到文件路径的距离有关,公式如下:
weight(keyword)=1/edistance(keyword,FilePath)(式1)
式1中,keyword为关键词;FilePath为问题页面包含的相关答案中的标注为文件路径的部分内容;distance(keyword,FilePath)为标注为描述部分的关键词到标注为文件路径内容的文本距离;weight(keyword)为关键词keyword的权重。
之后根据计算出的各个关键词的权重,利用投票的方式决定修复类型,公式如下:
weight(OperationTypei)=∑weight(keywordj)(式2)
OperationTypei∈{add,deleee,update}(式3)
式2~3中,keyword为关键词;OperationType为操作类型,add为增加操作,delete为删除操作,update为更新操作;weight(OperationTypei)为相应操作类型的权重,该权重的值表示当前问题页面中相关答案的含义建议提问者使用该操作类型的可能性;keywordj为映射到该修复操作的关键词。最后取权重最大的作为修复操作中的操作类型。这样,生成三项信息:,操作类型,提取修复模式识别算法生成的修复方法中的文件路径和配置。这三项信息组成一个修复操作(式5)。
最终,这一系列修复操作组成修复指令,修复指令定义如下:
EditScript={Operation1,Operation2,…,Operationn}(式4)
Operationi={OperationType,RecoveryFilePath,ConfContent}(式5)
其中,EditScript为修复指令;Operation为修复操作;OperationType为操作类型;RecoveryFilePath为需修复的文件的文件路径;ConfContent为配置内容。这些修复指令作为提取的原始指令信息存入修复指令仓库。
S32)修复脚本生成器
修复脚本生成器会根据用户故障定位结果,从修复指令仓库中获取相应的修复指令操作。用户系统和问答网站中人们讨论的问题系统存在差异,主要是修复指令中的待修改配置文件路径不同,因此需要自动查找用户系统对应的配置文件路径,并替换原始指令信息(修复指令仓库中的修复指令)中的文件路径。主要包括如下步骤:
首先,定义文件名的相似度函数similar(file1,file2),该函数以一个范围为0到1的数字表示file1和file2文件名的相似度,数值越大表示相似度越高,反之相似度越低。
然后,将用户目录结构数据以树结构存储,从根目录开始逐层遍历每层的所有文件名,每次遍历计算这些文件名同修复指令中文件路径的文件名的相似度函数,取相似度最高的文件作为候选文件。如果当前目录下的候选文件相比上一层的候选文件更相似,则该文件为候选文件,否则候选文件不变。最后,遍历到无下级目录时停止,将此时的候选文件作为需要修复的文件,具体用户系统文件定位方法的伪代码如下算法2所示:
根据得到的文件,结合修复指令,将其中的文件路径替换为用户系统的文件路径,即可得到针对该问题的修复脚本。之后,基于得到的修复脚本,生成linuxshell脚本自动化修改配置文件内容。对于文件内容的增删改操作,使用sed指令进行处理;以向配置文件/etc/hosts增加配置内容“127.0.0.1localhost”为例(Operation={Add,/etc/hosts,127.0.0.1localhost}),其修复指令为“sed–i‘127.0.0.1localhost’”,最终生成的基本shell脚本。如果修改特定位置的配置内容,只需要增加待修改行编号即可。通过生成符合用户系统环境的配置故障修复脚本,帮助用户快速修复软件配置故障,节省修复时间,提高系统的故障恢复能力和可用性。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于问答网站知识的软件配置故障自动修复方法,包括在线阶段和离线阶段;
离线阶段对问答网站数据进行爬取,提取得到问题网站中的问题和答案;问题包括问题日志数据,答案包括修复方法和指令;记录问题和答案的对应关系,建立问题日志库;将提取得到的修复方法和指令存入修复指令仓库;
在线阶段收集用户系统数据,用户系统数据包括用户系统运行日志和用户系统文件目录;通过计算用户系统运行日志和问题日志的相似度,定位用户系统故障,通过搜索修复指令仓库得到相应修复指令,生成相应的故障修复脚本;根据故障修复脚本实现修复用户系统故障。
2.如权利要求1所述基于问答网站知识的软件配置故障自动修复方法,其特征是,所述离线阶段具体执行如下步骤:
21)对问答网站数据进行爬取,提取得到问答网站中的问题和答案,具体是:首先通过过滤问答网站数据得到与故障配置相关的可用问题页面,再从所述可用问题页面中提取得到故障包含的问题日志数据和对应的答案数据;
21a)每一个问题包括一条或多条问题日志信息,针对步骤21)得到的问题日志数据进行过滤清洗,提取问题日志特征生成问题日志特征向量,获得问题与问题日志特征向量的对应关系,将问题、问题日志特征向量和对应关系存储,生成问题日志库;
21b)针对步骤21)得到的答案数据,通过文本分析提取答案数据中的指令和文件操作,具体是:对答案数据进行切分,对切分成的每一部分进行归类并标注相应标签,所述标签类型分别是:描述,文件路径,命令,配置,日志和代码;所述切分是使用解决方案和文件路径作为分隔符,将答案数据划分为多个部分,每个部分被标注为上述标签类型中的一种类型;由此将所述答案数据转换为标签的有序组合;
21b1)针对步骤22)转换后得到的答案内容,设置三种修复模式:第一种修复模式为{文件路径,配置};第二种修复模式为{文件路径,配置,配置};第三种修复模式为{命令,配置};
21b2)利用修复模式匹配算法将问题修复方法从答案数据中提取出来,每个答案数据提取得到一个或多个问题修复方法;针对提取得到的问题修复方法设置操作类型;针对提取出的每个问题修复方法确定相应的操作类型;由此,将每个答案数据转换成为由设置操作类型的一个或多个问题修复方法组成的一个修复指令;将修复指令存入修复指令仓库,供修复用户系统配置故障使用。
3.如权利要求2所述基于问答网站知识的软件配置故障自动修复方法,其特征是,步骤21)所述通过过滤问答网站数据得到与故障配置相关的可用问题页面,所述问答网站数据为爬虫收集到的HTML页面;通过过滤具有以下特征的页面,得到与故障配置相关的可用问题页面:
2a)无回答的页面;
2b)未含有解决方案的页面;解决方案指问题回答中的代码片段,包括程序代码、可执行命令、文件路径配置文件内容,包括html文件中<code></code>标签包含的内容;
2c)未含有文件路径的页面;
2d)未含有配置内容的页面,所述配置内容为xml格式。
4.如权利要求2所述基于问答网站知识的软件配置故障自动修复方法,其特征是,步骤21a)所述提取问题日志特征生成问题日志特征向量,具体通过基于文本挖掘的特征提取方法,包括如下步骤:
首先,针对每一条日志以标点符号为分隔符,分离出若干日志文本词汇;
然后,删除所有标点符号,获取由若干词汇组成词汇序列;
之后,将词汇大小写归一化生成问题日志文本特征向量,其形式表征为{word1,word2,word3,…,wordn},其中,wordi(i=1..n)表征由标点符号作为分隔符的将整个日志拆分成的一个字符串;
最后,将日志数据和日志文本特征向量存储,生成问题日志库。
5.如权利要求2所述基于问答网站知识的软件配置故障自动修复方法,其特征是,步骤21b2)所述具体执行如下操作:
首先,仿照情感词典建立操作词典,操作词典中收录了答案信息中的描述中出现的各种修改操作词语作为关键词,并将这些关键词映射到上述的三种修改类型,如果描述中不存在关键词,则默认为增加操作;
然后,对描述中的每个关键词的权重通过式1进行计算得到:
weight(keyword)=1/edistance(keyword,FilePath)(式1)式1中,keyword为关键词;FilePath为问题页面包含的相关答案中的标注为文件路径的部分内容;distance(keyword,FilePath)为标注为描述部分的关键词到标注为文件路径内容的文本距离;weight(keyword)为关键词keyword的权重;
之后,根据计算出的各个关键词的权重,利用式2投票的方式得到修复类型:
weight(OperationTypei)=∑weight(keywordj)(式2)
OperationTypei∈{add,delete,update}(式3)
式2~3中,keyword为关键词;OperationType为操作类型,add为增加操作,delete为删除操作,update为更新操作;weight(OperationTypei)为相应操作类型的权重,该权重的值表示当前问题页面中相关答案的含义建议提问者使用该操作类型的可能性;keywordj为映射到该修复操作的关键词;
最后,取权重最大的作为修复操作中的操作类型,由此生成一个修复操作,表示为式5:
Operationi={OperationType,RecoveryFilePath,ConfContent}(式5)
所述一个修复操作由三项信息组成,分别为操作类型、提取修复模式识别算法生成的修复方法中的文件路径、配置;
最终,一系列修复操作组成修复指令,所述修复指令用式4表示:
EditScript={Operation1,Operation2,…,Operationn}(式4)
式4~式5中,EditScript为修复指令;Operation为修复操作;OperationType为操作类型;RecoveryFilePath为需修复的文件的文件路径;ConfContent为配置内容;
将修复指令存入修复指令仓库,作为提取的原始指令信息。
6.如权利要求1所述基于问答网站知识的软件配置故障自动修复方法,其特征是,所述在线阶段具体执行如下步骤:
11)当有用户系统日志输入时,获取用户系统文件目录信息和用户系统运行日志,分别转换为目录特定格式和系统日志特定格式;
12)对用户系统运行日志进行预处理,提取得到用户系统日志的特征向量;
13)当系统出现故障或者用户提交故障片段日志时,通过查询所述问题日志库索引获取问答网站日志数据和问题日志文本特征向量,通过计算得到用户日志与问答网站问题日志之间的相似度,通过相似度匹配的方法定位用户系统的配置故障,获得用户故障定位信息;
14)根据用户故障定位信息,从所述修复指令仓库中提取得到修复该故障的修复指令,所述修复指令中的动态部分是从用户的系统文件目录信息提取得到的文件路径;
15)根据步骤14)得到的修复指令包含的待修复配置文件,查找得到用户系统中相应的配置文件,生成修复脚本,所述修复脚本是能够对用户系统中的配置文件进行修改的可执行脚本;
16)运行修复脚本,修复软件配置故障。
7.如权利要求6所述基于问答网站知识的软件配置故障自动修复方法,其特征是,步骤11)所述系统日志特定格式包括五个属性,分别为:用户ID、日志ID、日志内容、日志时间戳、日志文件路径;所述用户ID用于表示日志所属用户;日志ID表示日志序列,用以建立索引,查询等;日志时间戳记录当前日志的系统时间,用以表征用户日志集的时间序列特征;日志文件路径保存当前日志来源;所述目录特定格式包括三个属性,分别为:目录ID、上级目录、当前目录;所述目录ID用于标识每个目录;上级目录表示该目录的上级目录名称;当前目录为当前目录名称。
8.如权利要求6所述基于问答网站知识的软件配置故障自动修复方法,其特征是,步骤13)所述用户日志与问答网站问题日志之间的相似度,具体为采用相似度匹配方法计算得到的用户日志与问答网站日志之间的编辑距离;所述编辑距离为两文本之间相互转换的最小编辑操作数目;所述编辑操作类型分为:增加、删除、替换;所述相似度匹配方法通过比对用户系统日志与问答网站日志库中的编辑距离,将日志片段定位到一个或多个问答网站中的问题,由此得到用户故障定位信息。
9.如权利要求6所述基于问答网站知识的软件配置故障自动修复方法,其特征是,步骤15)具体使用linuxshell语法生成所述问题修复脚本;步骤15)所述查找得到用户系统中相应的配置文件,具体执行如下操作:
首先,定义文件名的相似度函数similar(file1,file2),该相似度函数以一个范围为0到1的数字表示file1和file2文件名的相似度;
然后,将用户目录结构数据以树结构存储,从根目录开始逐层遍历每层的所有文件名,每次遍历都选出与所述修复指令中的文件名相似度最高的文件作为候选文件;
如果当前目录下的候选文件相比上一层的候选文件更相似,则该文件为候选文件,否则候选文件不变;
最后,遍历到无下级目录时停止,将此时的候选文件作为需要修复的文件。
10.利用权利要求1~9所述基于问答网站知识的软件配置故障自动修复方法实现的基于问答网站知识的软件配置故障自动修复系统,其特征是,所述软件配置故障自动修复系统以问答网站数据和用户系统数据作为输入,包括双线数据收集模块、在线日志分析与故障定位模块和故障修复脚本生成模块;
所述双线数据收集模块包括问答网站数据收集器和用户系统数据收集器两个子模块,用于收集问答网站和用户系统日志的数据,为另两个模块提供数据支持;所述问答网站数据收集器用于从问答网站上收集配置故障问题相关的日志数据及答案数据,所述用户日志收集器用于从用户系统中收集用户日志数据;所述用户日志数据和问题的日志数据传递给在线日志分析与故障定位模块,所述答案数据传递给故障修复脚本生成模块;
所述在线日志分析与故障定位模块包括日志预处理器和用户故障日志定位器两个子模块,用于对获取的日志数据进行预处理,并将用户故障匹配到一个或几个问答网站的问题上;所述日志预处理器以问答网站的问题日志数据和用户系统日志数据作为输入,对日志数据进行预处理;经过预处理后,用户故障日志定位器通过相似度匹配的方法计算用户日志和问答网站问题日志间的距离,将用户日志中的故障问题匹配到问答网站的问题,并将结果传递给所述故障修复脚本生成模块;
所述故障修复脚本生成模块包含修复指令提取器、修复指令仓库和修复脚本生成器子模块,用于自动生成用于修复用户配置故障的脚本;所述修复指令提取器以问答网站答案数据为输入,通过分析网站答案数据,将答案中的指令或文件操作提取出来,作为该问题的解决方案;所述修复脚本生成器根据用户故障定位结果,提取相应问题的解决方案,并根据用户系统文件目录,生成该问题的修复脚本;最后将脚本提供给用户用于解决用户系统的软件配置故障。
CN201610202074.2A 2016-04-01 2016-04-01 基于问答网站知识的软件配置故障自动修复方法和系统 Active CN105824718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610202074.2A CN105824718B (zh) 2016-04-01 2016-04-01 基于问答网站知识的软件配置故障自动修复方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610202074.2A CN105824718B (zh) 2016-04-01 2016-04-01 基于问答网站知识的软件配置故障自动修复方法和系统

Publications (2)

Publication Number Publication Date
CN105824718A true CN105824718A (zh) 2016-08-03
CN105824718B CN105824718B (zh) 2018-10-19

Family

ID=56525599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610202074.2A Active CN105824718B (zh) 2016-04-01 2016-04-01 基于问答网站知识的软件配置故障自动修复方法和系统

Country Status (1)

Country Link
CN (1) CN105824718B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407113A (zh) * 2016-09-09 2017-02-15 扬州大学 一种基于Stack Overflow和commit库的bug定位方法
CN106897170A (zh) * 2017-02-27 2017-06-27 郑州云海信息技术有限公司 一种基于问答报告自动学习修复软件的方法
CN107544908A (zh) * 2017-09-14 2018-01-05 郑州云海信息技术有限公司 一种定位openstack集成测试框架执行报错方法
CN107909164A (zh) * 2017-12-08 2018-04-13 泰康保险集团股份有限公司 运维处理方法、系统、电子设备及计算机可读介质
CN108089871A (zh) * 2017-12-04 2018-05-29 广州华旻信息科技有限公司 软件自动更新方法、装置、设备及存储介质
CN109036554A (zh) * 2018-08-07 2018-12-18 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110019762A (zh) * 2017-12-08 2019-07-16 深圳壹账通智能科技有限公司 一种问题定位方法、存储介质和服务器
CN110377703A (zh) * 2019-07-22 2019-10-25 中国工商银行股份有限公司 报错信息处理方法、装置和设备
CN110515894A (zh) * 2019-08-02 2019-11-29 济南浪潮数据技术有限公司 一种数据格式转换方法、装置、设备及可读存储介质
CN110851293A (zh) * 2019-10-15 2020-02-28 中国直升机设计研究所 一种信息系统联动处理的系统及方法
WO2020077824A1 (zh) * 2018-10-16 2020-04-23 深圳壹账通智能科技有限公司 异常问题的定位方法、装置、设备及存储介质
CN111061584A (zh) * 2019-11-21 2020-04-24 浪潮电子信息产业股份有限公司 一种故障诊断方法、装置、设备及可读存储介质
CN111178537A (zh) * 2019-12-09 2020-05-19 华为技术有限公司 一种特征提取模型训练方法及设备
CN111277846A (zh) * 2020-01-15 2020-06-12 广州虎牙科技有限公司 一种直播的异常定位方法、装置、计算机设备和存储介质
CN111475411A (zh) * 2020-04-01 2020-07-31 苏州浪潮智能科技有限公司 一种服务器问题检测方法、系统、终端及存储介质
CN111694597A (zh) * 2020-06-09 2020-09-22 上海米哈游天命科技有限公司 一种中断修复方法、装置、设备及介质
CN112069031A (zh) * 2020-09-03 2020-12-11 中国平安财产保险股份有限公司 异常查询方法、装置、设备及计算机可读存储介质
CN112800193A (zh) * 2021-01-15 2021-05-14 云南大学 一种日志分析和问答系统及方法
CN112925668A (zh) * 2021-02-25 2021-06-08 北京百度网讯科技有限公司 服务器健康评价方法、装置、设备以及存储介质
CN113032536A (zh) * 2019-12-24 2021-06-25 北京绪水互联科技有限公司 基于智能在线实时交互的设备故障定位方法、系统及电子装置
CN113076296A (zh) * 2021-03-30 2021-07-06 咪咕文化科技有限公司 日志生成方法、装置、电子设备及存储介质
US11580416B2 (en) 2019-08-14 2023-02-14 International Business Machines Corporation Improving the accuracy of a compendium of natural language responses

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101431479A (zh) * 2007-11-08 2009-05-13 华为技术有限公司 实现问答业务的方法、客户端和服务器
US20130295546A1 (en) * 2012-05-04 2013-11-07 Pearl.com LLC Method and apparatus for identifying and eliciting missing question details in a consultation system
US20140031957A1 (en) * 2012-07-24 2014-01-30 General Electric Company Systems and methods for control reliability operations
CN105335246A (zh) * 2015-10-27 2016-02-17 北京大学 一种基于问答网站分析的程序崩溃缺陷自动修复方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101431479A (zh) * 2007-11-08 2009-05-13 华为技术有限公司 实现问答业务的方法、客户端和服务器
US20130295546A1 (en) * 2012-05-04 2013-11-07 Pearl.com LLC Method and apparatus for identifying and eliciting missing question details in a consultation system
US20140031957A1 (en) * 2012-07-24 2014-01-30 General Electric Company Systems and methods for control reliability operations
CN105335246A (zh) * 2015-10-27 2016-02-17 北京大学 一种基于问答网站分析的程序崩溃缺陷自动修复方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407113B (zh) * 2016-09-09 2018-12-11 扬州大学 一种基于Stack Overflow和commit库的bug定位方法
CN106407113A (zh) * 2016-09-09 2017-02-15 扬州大学 一种基于Stack Overflow和commit库的bug定位方法
CN106897170A (zh) * 2017-02-27 2017-06-27 郑州云海信息技术有限公司 一种基于问答报告自动学习修复软件的方法
CN107544908A (zh) * 2017-09-14 2018-01-05 郑州云海信息技术有限公司 一种定位openstack集成测试框架执行报错方法
CN108089871A (zh) * 2017-12-04 2018-05-29 广州华旻信息科技有限公司 软件自动更新方法、装置、设备及存储介质
CN110019762B (zh) * 2017-12-08 2021-07-02 深圳壹账通智能科技有限公司 一种问题定位方法、存储介质和服务器
CN107909164A (zh) * 2017-12-08 2018-04-13 泰康保险集团股份有限公司 运维处理方法、系统、电子设备及计算机可读介质
CN110019762A (zh) * 2017-12-08 2019-07-16 深圳壹账通智能科技有限公司 一种问题定位方法、存储介质和服务器
CN107909164B (zh) * 2017-12-08 2021-11-26 泰康保险集团股份有限公司 运维处理方法、系统、电子设备及计算机可读介质
CN109036554A (zh) * 2018-08-07 2018-12-18 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109036554B (zh) * 2018-08-07 2020-02-14 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
WO2020077824A1 (zh) * 2018-10-16 2020-04-23 深圳壹账通智能科技有限公司 异常问题的定位方法、装置、设备及存储介质
CN110377703A (zh) * 2019-07-22 2019-10-25 中国工商银行股份有限公司 报错信息处理方法、装置和设备
CN110515894A (zh) * 2019-08-02 2019-11-29 济南浪潮数据技术有限公司 一种数据格式转换方法、装置、设备及可读存储介质
CN110515894B (zh) * 2019-08-02 2023-07-21 济南浪潮数据技术有限公司 一种数据格式转换方法、装置、设备及可读存储介质
US11580416B2 (en) 2019-08-14 2023-02-14 International Business Machines Corporation Improving the accuracy of a compendium of natural language responses
CN110851293A (zh) * 2019-10-15 2020-02-28 中国直升机设计研究所 一种信息系统联动处理的系统及方法
CN110851293B (zh) * 2019-10-15 2023-06-27 中国直升机设计研究所 一种信息系统联动处理的系统及方法
CN111061584A (zh) * 2019-11-21 2020-04-24 浪潮电子信息产业股份有限公司 一种故障诊断方法、装置、设备及可读存储介质
CN111178537A (zh) * 2019-12-09 2020-05-19 华为技术有限公司 一种特征提取模型训练方法及设备
CN111178537B (zh) * 2019-12-09 2023-11-17 华为云计算技术有限公司 一种特征提取模型训练方法及设备
CN113032536A (zh) * 2019-12-24 2021-06-25 北京绪水互联科技有限公司 基于智能在线实时交互的设备故障定位方法、系统及电子装置
CN111277846A (zh) * 2020-01-15 2020-06-12 广州虎牙科技有限公司 一种直播的异常定位方法、装置、计算机设备和存储介质
CN111475411A (zh) * 2020-04-01 2020-07-31 苏州浪潮智能科技有限公司 一种服务器问题检测方法、系统、终端及存储介质
CN111694597A (zh) * 2020-06-09 2020-09-22 上海米哈游天命科技有限公司 一种中断修复方法、装置、设备及介质
CN112069031A (zh) * 2020-09-03 2020-12-11 中国平安财产保险股份有限公司 异常查询方法、装置、设备及计算机可读存储介质
CN112069031B (zh) * 2020-09-03 2023-06-23 中国平安财产保险股份有限公司 异常查询方法、装置、设备及计算机可读存储介质
CN112800193A (zh) * 2021-01-15 2021-05-14 云南大学 一种日志分析和问答系统及方法
CN112925668A (zh) * 2021-02-25 2021-06-08 北京百度网讯科技有限公司 服务器健康评价方法、装置、设备以及存储介质
CN112925668B (zh) * 2021-02-25 2024-04-05 北京百度网讯科技有限公司 服务器健康评价方法、装置、设备以及存储介质
CN113076296A (zh) * 2021-03-30 2021-07-06 咪咕文化科技有限公司 日志生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN105824718B (zh) 2018-10-19

Similar Documents

Publication Publication Date Title
CN105824718A (zh) 基于问答网站知识的软件配置故障自动修复方法和系统
CN109271272B (zh) 基于非结构化日志的大数据组件故障辅助修复系统
Zhou et al. A map of threats to validity of systematic literature reviews in software engineering
CN105975604B (zh) 一种分布迭代式数据处理程序异常检测与诊断方法
US20150121136A1 (en) System and method for automatically managing fault events of data center
CN111459799B (zh) 一种基于Github的软件缺陷检测模型建立、检测方法及系统
US10261967B2 (en) Data extraction
CN105335246B (zh) 一种基于问答网站分析的程序崩溃缺陷自动修复方法
CN114048870A (zh) 一种基于日志特征智能挖掘的电力系统异常监测方法
CN111930597B (zh) 基于迁移学习的日志异常检测方法
CN104268216A (zh) 一种基于互联网信息的数据清洗系统
CN109471793A (zh) 一种基于深度学习的网页自动化测试缺陷定位方法
CN114091912B (zh) 一种应用知识图谱分析中压电网拓扑异动方法
CN112395424A (zh) 一种复杂产品质量问题追溯方法及系统
CN113010632A (zh) 智能问答方法、装置、计算机设备和计算机可读介质
CN106649557A (zh) 一种缺陷报告与邮件列表语义关联挖掘方法
CN113065580B (zh) 一种基于多信息融合的电厂设备管理方法及系统
KR101532252B1 (ko) 소셜 네트워크 정보 수집 및 분석 시스템
CN111181785B (zh) 基于反馈式链路的监控方法和装置
CN112068981A (zh) Linux操作系统中基于知识库的故障扫描恢复方法及系统
CN117331730A (zh) 故障诊断方法、装置、电子设备及存储介质
Tong et al. An approach to pinpointing bug-induced failure in logs of open cloud platforms
CN116302984A (zh) 一种测试任务的根因分析方法、装置及相关设备
CN112256830B (zh) 一种设备排查信息获取方法、装置和设备故障排查系统
Lei et al. An infrastructure for acquiring high quality semantic metadata

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant