CN107248927B - 故障定位模型的生成方法、故障定位方法和装置 - Google Patents
故障定位模型的生成方法、故障定位方法和装置 Download PDFInfo
- Publication number
- CN107248927B CN107248927B CN201710301801.5A CN201710301801A CN107248927B CN 107248927 B CN107248927 B CN 107248927B CN 201710301801 A CN201710301801 A CN 201710301801A CN 107248927 B CN107248927 B CN 107248927B
- Authority
- CN
- China
- Prior art keywords
- data
- log
- log data
- alarm information
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 91
- 238000007418 data mining Methods 0.000 claims abstract description 13
- 238000007635 classification algorithm Methods 0.000 claims abstract description 11
- 238000004140 cleaning Methods 0.000 claims description 40
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 230000004807 localization Effects 0.000 claims description 21
- 238000005065 mining Methods 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 6
- 230000005012 migration Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0604—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0604—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
- H04L41/0622—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on time
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种故障定位模型的生成方法、故障定位方法和装置,属于虚拟化技术领域。所述方法包括:确定虚拟化网络中告警信息产生的时间信息;并根据时间信息获取虚拟化网络中告警信息产生时的日志数据;根据所述日志特征获取训练数据;通过数据挖掘分类算法将所述训练数据训练为所述虚拟化网络的故障定位模型。本申请通过获取告警信息产生时的日志数据,根据该日志数据来逐步获取训练数据,并根据该训练数据训练得到故障定位模型,将告警信息和训练数据关联了起来,提高了依靠训练数据生成的故障定位模型的可靠性。
Description
技术领域
本申请涉及虚拟化技术领域,特别涉及一种故障定位模型的生成方法、故障定位方法和装置。
背景技术
虚拟化(Virtualization)技术是一种通过通用硬件以及虚拟化技术来实现各种不同功能的技术。应用了虚拟化技术的虚拟化网络通常可以包括主机(host)、虚拟机(Virtual Machine,VM)和虚拟化网络功能模块(Virtual Network Function,VNF)这几种网元(Network Element,NE),VM运行在主机上,而VNF运行在VM上,VNF可以用于实现各种功能。应用了虚拟化技术的虚拟化网络出现故障时,需要对故障进行定位,以确定具体的故障位置。
在一种故障定位方法中,该方法为,首先将虚拟化网络中各个网元的日志数据分割为多段文字段,并抽取关键词,然后分析关键词频次,再根据关键词频次筛选关键词并将关键词转化为日志特征,然后将得到的日志特征作为数据挖掘分类算法(ClassificationAlgorithms in Data Mining)的训练数据,以获得故障定位模型,之后可以根据该故障定位模型来对虚拟化网络出现的故障进行定位。
在实现本申请的过程中,发明人发现现有技术至少存在以下问题:虚拟化网络中各个网元的日志中,大部分是与故障分析无关的日志,提取其中的关键词并通过关键词频次来筛选关键词可能会遗漏较多与故障定位有关的关键词,由此得到的故障定位模型对于故障的定位的可靠性较差。
发明内容
为了解决故障定位模型对于故障的定位的可靠性较差的问题,本申请提供了一种故障定位模型的生成方法、故障定位方法和装置。所述技术方案如下:
本申请的执行主体可以是独立于虚拟化网络之外的一个装置,该装置可以是一个网络设备。
第一方面,本申请提供了一种故障定位模型的生成方法,该方法包括:
网络设备确定虚拟化网络中告警信息产生的时间信息。该时间信息可以记录有当前时刻之前的多个告警信息的产生时刻。
网络设备根据时间信息获取虚拟化网络中告警信息产生时的日志数据。该日志数据包括虚拟化网络中多个网元的日志,虚拟化网络中的网元可以包括host、VM和VNF等。
网络设备从日志数据中获取日志特征。
网络设备根据日志特征获取训练数据,该训练数据可以作为数据挖掘分类算法(Classification Algorithms in Data Mining)的训练数据。
网络设备将通过数据挖掘分类算法将训练数据训练为虚拟化网络的故障定位模型。
本申请提供的故障定位模型的生成方法中,通过获取告警信息产生时的日志数据,根据该日志数据来逐步获取训练数据,并根据该训练数据训练得到故障定位模型,将告警信息和训练数据关联了起来,提高了故障定位模型的可靠性。
可选的,根据时间信息获取虚拟化网络中告警信息产生时的日志数据之前,该方法还包括:
网络设备对虚拟化网络中产生的告警信息进行压缩处理,以去除重复的告警信息。
虚拟化网络中的多个网元可能对于同一个故障各自发出告警信息,这使得重复的告警信息较多,去除重复的告警信息能够减少生成故障定位模型时的计算量。
可选的,根据时间信息获取虚拟化网络中告警信息产生时的日志数据,包括:
网络设备根据时间信息获取虚拟化网络中告警信息产生时各个网元的日志;
网络设备可以将各个网元的日志中相关联的日志进行拼接,得到虚拟化网络中告警信息产生时的日志数据。
由于虚拟化网络中的虚拟机可能存在迁移等情况,同一个VNF可能在不同时间运行于不同的VM上,因而网络设备可以将不同的VM上相关联的日志进行拼接,以提高得到的日志数据的完整性与可靠性。
可选的,网络设备从日志数据中获取日志特征,包括:
网络设备获取日志数据中的至少一个关键词。关键词(keywords)通常是日志数据中较为重要的几个词或者短语,作为对日志数据主要内容的提要。获取关键词是快速了解日志数据内容、把握日志数据主题的重要方式。
网络设备可以根据至少一个关键词将日志数据转换为日志特征。
本申请提供的故障定位模型的生成方法中,网络设备可以根据日志数据中的关键词来生成日志特征,以对日志数据进行精简,提高故障定位模型的可靠性。
可选的,网络设备获取日志数据中的至少一个关键词,包括:
网络设备对日志数据进行数据清洗(Data cleaning),数据清洗用于去除日志数据中与故障定位无关的数据。
网络设备获取数据清洗后的日志数据中的至少一个关键词。
对日志数据进行数据清洗能够清楚日志数据中与故障定位无关的数据,减少生成故障定位模型的计算量。
可选的,网络设备对日志数据进行数据清洗,包括:
网络设备删除日志数据中的非字母字符、与故障定位无关的数字字符、空行、重复行和高频词中的至少一种;
和/或,网络设备将日志数据中的多行日志转换为单行日志。
非字母字符、与故障定位无关的数字字符、空行、重复行和高频词通常均与故障定位的关联性较小,可以将这些数据删除。
可选的,网络设备获取数据清洗后的日志数据中的至少一个关键词,包括:
网络设备将数据清洗后的日志数据中,每次告警信息产生告警信息产生时的日志数据分割为故障日志数据和正常日志数据,故障日志数据为包括告警信息产生时刻的第一预设时间段的日志数据,正常日志数据为第一预设时间段之前的第二预设时间段的日志数据。
网络设备判断数据清洗后的日志数据中,每次告警信息产生时的日志数据中是否同时包括正常日志数据和故障日志数据。
在数据清洗后的日志数据中,任一告警信息产生时的日志数据中并非同时包括正常日志数据和故障日志数据时(即日志数据中仅包括正常日志数据或仅包括故障日志数据),网络设备获取任一告警信息产生时的日志数据中的至少一个关键词。
在数据清洗后的日志数据中,任一告警信息产生时的日志数据中同时包括正常日志数据和故障日志数据时,判断正常日志数据和故障日志数据的相似度是否小于预设值。
在相似度小于预设值时,网络设备获取任一告警信息产生时的日志数据的至少一个关键词。
在相似度不小于预设值时,说明虚拟化网络在发生故障前后日志数据变化不大,为了增加关键词以分析故障,网络设备可以获取任一告警信息产生时的日志数据的至少一个关键词,并将任一告警信息产生时的日志数据中的数字字符作为关键词。
可选的,根据至少一个关键词将日志数据转换为日志特征,包括:
网络设备根据第一关键词将数据清洗后的日志数据转换为关于第一关键词的日志特征,其中,关于第一关键词的日志特征用于指示数据清洗后的日志数据中的每个日志是否包括该第一关键词,该第一关键词为至少一个关键词中的任一关键词。
本申请提供的故障定位模型的生成方法中,可以将是否包括关键词来作为日志特征。
可选的,根据日志特征获取训练数据,包括:
网络设备将日志特征作为训练数据;
或者,
网络设备根据虚拟化网络中任一告警信息与任一告警信息对应的日志特征生成日志特征序列,任一告警信息对应的日志特征为根据任一告警信息产生时的日志数据获取的日志特征;
网络设备通过序列模式挖掘算法挖掘日志特征序列,得到至少一个候选序列特征;
网络设备通过序列选择算法从至少一个候选序列特征挑选出与故障定位相关的序列特征;
网络设备将序列特征和日志特征作为训练数据。
网络设备可以直接将日志特征作为训练数据,或者也可以根据日志特征获取序列特征,并将序列特征和日志特征均作为训练数据,以增加训练数据的可靠性和全面性。
可选的,根据日志特征获取训练数据,包括:
网络设备根据虚拟化网络中的告警信息、性能统计数据、虚拟机信息和主机信息中的至少一种信息得到虚拟化网络的专家特征;
网络设备将专家特征和日志特征作为训练数据。
网络设备可以获取专家特征,并将专家特征和日志特征一起作为训练数据,以增加训练数据的可靠性和全面性。
根据本申请的第二方面,提供一种故障定位方法,该方法包括:
在虚拟化网络发生故障时,获取第一方面提供的方法生成的虚拟化网络的故障定位模型;
根据该故障定位模型对虚拟化网络发生的故障进行定位。
根据本申请的第三方面,提供一种故障定位模型的生成装置,该故障定位模型的生成装置包括至少一个模块,该至少一个模块用于实现上述第一方面所提供的故障定位模型的生成方法。
根据本申请的第四方面,提供一种故障定位装置,该故障定位装置包括至少一个模块,该至少一个模块用于实现上述第二方面提供的故障定位方法。
根据本申请的第五方面,提供了一种故障定位模型的生成装置,该故障定位模型的生成装置包括:处理器、网络接口、存储器以及总线,存储器与网络接口分别通过总线与处理器相连;处理器被配置为执行存储器中存储的指令;处理器通过执行指令来实现上述第一方面所提供的故障定位模型的生成方法。
根据本申请的第六方面,提供了一种故障定位装置,该故障定位装置包括:处理器、网络接口、存储器以及总线,存储器与网络接口分别通过总线与处理器相连;处理器被配置为执行存储器中存储的指令;处理器通过执行指令来实现上述第二方面所提供的故障定位方法。
根据本申请的第七方面,提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该计算机可读存储介质在计算机上运行时,使得计算机执行上述第一方面提供的故障定位模型的生成方法。
根据本申请的第八方面,提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该计算机可读存储介质在计算机上运行时,使得计算机执行上述第二方面提供的故障定位方法。
本发明实施例提供的技术方案带来的有益效果是:
通过获取告警信息产生时的日志数据,根据该日志数据来逐步获取训练数据,并根据该训练数据训练得到故障定位模型,将告警信息和训练数据关联了起来,相较于相关技术中训练数据可能遗漏大量和故障定位有关的信息,提高了依靠训练数据生成的故障定位模型的可靠性。
附图说明
图1是本发明各个实施例所涉及的实施环境的示意图;
图2是本发明示例性实施例涉及的一种网络设备的结构示意图;
图3-1是本发明实施例提供的一种故障定位模型的生成方法的流程图;
图3-2是图3-1所示实施例中一种NFV网络的架构图;
图3-3是图3-1所示实施例中另一种NFV网络的架构图;
图3-4是图3-1所示实施例中一种获取关键词的流程图;
图3-5是图3-1所示实施例中一种获取训练数据的流程图;
图3-6是图3-1所示实施例中另一种获取训练数据的流程图;
图3-7是图3-1所示实施例中另一种获取训练数据的流程图;
图4-1是本发明实施例提供的一种故障定位方法的流程图;
图4-2是图4-1所示实施例中一种故障定位的流程图;
图5-1是本发明实施例提供的一种故障定位模型的生成装置的框图;
图5-2是图5-1所示实施例中一种日志特征获取模块的框图;
图5-3是本发明实施例提供的另一种故障定位模型的生成装置的框图;
图5-4是图5-1所示实施例中一种关键词获取子模块的框图;
图6是本发明实施例提供的一种故障定位装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本发明各个实施例所涉及的实施环境的示意图,该实施环境可以包括:虚拟化网络01、故障定位模型生成装置02和故障定位装置03。虚拟化网络01可以分别和故障定位模型生成装置02以及故障定位装置03建立有连接,故障定位模型生成装置02可以和故障定位装置03建立有连接。此外,故障定位模型生成装置02还可以和故障定位装置03为同一个装置。
虚拟化网络01为应用了虚拟化技术的网络,用于实现各种网络功能。故障定位模型生成装置02用于生成针对虚拟化网络01的故障定位模型。故障定位装置03用于根据故障定位模型生成装置02生成的故障定位模型对虚拟化网络01发生的故障进行定位。
请参考图2,其示出了本发明示例性实施例涉及的一种网络设备的结构示意图。该网络设备10可以是上述故障定位模型生成装置02或者故障定位装置03,该网络设备10包括:处理器12和网络接口14。
处理器12包括一个或者一个以上处理核心。处理器12通过运行软件程序以及模块,从而执行各种功能应用以及数据处理。
网络接口14可以为多个,该网络接口14用于与其它存储设备或者网络设备进行通信。
可选的,网络设备10还包括存储器16、总线18等部件。其中,存储器16与网络接口14分别通过总线18与处理器12相连。
存储器16可用于存储软件程序以及模块。具体的,存储器16可存储操作系统162、至少一个功能所需的应用程序164。操作系统162可以是实时操作系统(Real TimeeXecutive,RTX)、林纳斯操作系统(LINUX)、尤尼斯操作系统(UNIX)或视窗操作系统(WINDOWS)。
请参考图3-1,其为本发明实施例提供的一种故障定位模型的生成方法的流程图,该故障定位模型的生成方法可以包括如下几个步骤:
步骤301、网络设备对虚拟化网络中产生的告警信息进行压缩处理,以去除重复的告警信息。
告警信息是虚拟化网络中某个网元发生故障时发出的信息,但由于虚拟化网络中的多个网元可能对于同一个故障各自发出告警信息,这使得重复的告警信息较多。网络设备在生成故障定位模型时,去除重复的告警信息能够减少生成故障定位模型时的计算量。
本发明实施例可以通过相关技术中的告警压缩(alarm deduplication)方法来对重复的告警信息进行压缩处理。告警压缩方法可以参考相关技术,在此不再赘述。
步骤302、网络设备确定虚拟化网络中告警信息产生的时间信息。
网络设备可以从虚拟化网络中用于管理的网元中获取告警信息产生的时间信息,该时间信息可以记录有当前时刻之前的多个告警信息的产生时刻。
步骤303、网络设备根据时间信息获取虚拟化网络中告警信息产生时各个网元的日志。
虚拟化网络中,日志是每个网元的运行记录,每个日志可以记载着日期、时间、使用者及动作等相关操作的描述。由于日志的数据量较为庞大,为了减少数据处理量,网络设备可以在生成故障定位模型时获取历史记录中,告警信息产生时各个网元的日志。这里的告警信息是指去除了重复告警信息后的告警信息。告警信息产生时可以是指包括告警信息产生时刻在内的一个时间段,而告警信息产生时刻可以是记录在告警信息内的一个时刻,也可以是网络设备发现告警信息的时刻,这两个时刻的时间差可以忽略不计。
虚拟化网络中某些硬件部件的性能可能在一个较长的时间内逐渐降低直至失效,在失效的那一刻与失效的前一刻相比,在日志上可能没有较大的变化,如果仅通过失效那一刻的日志来进行分析的话,可能难以分析出准确的故障位置,因而为了提高日志的全面性和可靠性,网络设备可以分别获取当前时刻(生成故障定位模型的时刻)之前的多个时间段中告警信息产生时的日志,在这多个时间段的每一时间段中,虚拟化网络都可能发生有多次故障,因而各个时间段的日志中可以包括多次故障时的日志。示例性的,可以获取当前时刻至当前时刻之前30分钟的日志,当前时刻之前30分钟至当前时刻之前60分钟的日志,当前时刻之前1小时至当前时刻之前2小时的日志,当前时刻之前2小时至当前时刻之前6小时的日志等多个时段的日志,这样网络设备就能够在一个较长的时间段来分析虚拟化网络中出现的故障。
本发明实施例中的虚拟化网络可以为网络功能虚拟化(Network FunctionVirtualization,NFV)网络,NFV网络的结构可以如图3-2所示,其中,运营支撑系统(Operations Support Systems,OSS)/业务支撑系统(Business Support System,BSS)为NFV网络的支撑系统;网元管理系统(Element Management System,EMS)用于管理VNF;协调器(Orchestrator)用于进行网络业务、VNF与资源(该资源可以包括计算资源、网络资源和存储资源等)的总体管理,是整个NFV架构的控制核心;虚拟化网络功能管理器(VirtualNetwork Function Manager,VNFM)用于VNF的资源和生命周期等的管理;网络功能虚拟化基础设施(Network Functions Virtualisation Infrastructure,NFVI)是一种包含网络设备、虚拟化管理程序、操作系统、虚拟机、虚拟交换机和网络资源的云数据中心;虚拟化的基础设施管理器(Virtual Infrastructure Manager,VIM)用于对NFVI的资源进行管理和监控。NFV的架构还可以参考相关技术,在此不再赘述。
本发明实施例获取的各个网元的日志等数据可以来源于图3-2中的OSS、VNF、VNFM和VIM。
在图3-2所示的架构中,VNF是运行于VM中的,而VM又运行于host中,示例性的,该运行方式的结构可以如图3-3所示,其中,VNF2运行于两个虚拟机VM2和VM3上,而VM2运行于host1中,VM3运行于host2中,图3-3中的多个host可以相当于图3-2中的NFVI。网络设备可以从VNFM中获取VNF和VM的对应关系,可以从VIM中获取VM和host的对应关系。
本发明实施例中的VNF可以是各种电信软件,电信软件是用于实现各种电信功能的软件,如归属位置寄存器(Home Location Register,HLR)和拜访位置寄存器(VisitorLocation Register,VLR)等。
在获取日志时,网络设备可以获取告警信息所对应的VNF(一个VNF发出告警信息,则可以称该告警信息与该VNF对应)所在的VM(VNF运行于某个VM时,可以称该VM为该VNF所在的VM)的影响范围(VM的影响范围可以包括运行于其上的VNF,以及运行有该VM的host)内的日志,即VNF的日志、VNF所在的VM的日志,VM所在的host(VM运行于某个host时,可以称该host为该VM所在的host)的日志。
此外,由于一个故障可能会影响多个网元,因而一个故障可以会使网络设备获取多组日志,示例性的,VNF1存在故障E1,则VNF1会上报告警信息M1,同时该故障E1也会影响到VNF3,则VNF3也会上报一个告警信息M2,这样网络设备就会获取两组日志:1、告警信息M1所对应的VNF1的日志,VNF1所在的VM1的日志以及VM1所在的host1的日志;2、告警信息M2所对应的VNF3的日志,VNF3所在的VM4的日志以及VM4所在的host2的日志。
为了便于组织数据,网络设备可以将告警信息和VNF对应起来,获取粒度较为统一的数据。告警信息中通常包括告警源信息,多数的告警源信息用于指示该告警信息是由哪个网元发出的,对于该类告警源信息,网络设备能够通过获取的VNF、VM和host的对应关系(这三者的对应关系可以参考图3-3及其说明)将该告警源所述的告警信息与VNF对应,示例性的,告警信息B中的告警源信息指示告警信息B是由host1发出,则可以根据host和VM的对应关系将host1和某个VM对应,再根据VM和VNF的对应关系将该某个VM和某个VNF对应起来,进而可以将告警信息B和该某个VNF对应起来,其中host可以与多个VM对应,VM可以与多个VNF对应,进而告警信息也可以与多个VNF对应,本发明实施例不作出限制。还有部分告警源信息记载了管理对象实体(Management Object Instance,MOI)信息,MOI信息是电信软件标准中定义管理对象类(Management Object Class,MOC)的功能实体,对于这类告警信息,网络设备可以从VNF中导出网元配置信息,遵循电信标准,获得告警信息和VNF的对应关系。
此外,本发明实施例中的虚拟化网络还可以是云计算(Cloud Computing)数据中心网络等应用了虚拟化技术的网络。
步骤304、网络设备将各个网元的日志中相关联的日志进行拼接,得到虚拟化网络中告警信息产生时的日志数据。
虚拟化网络中可能存在业务迁移的可能,即同一个VNF在不同的时间点运行于不同的VM上,相关联的日志可以是指同一个VNF运行于不同的VM上的日志,网络设备可以从图3-2所示的架构中的VNFM中获取业务迁移信息,并根据该业务迁移信息将这些不同的VM中的相关联的日志合并起来作为一个VNF的日志,这样就能够获得较为完整的日志,提高日志数据的可靠性。
本步骤所得到的日志数据中可以包括各个网元不相关联的日志以及合并后的相关联的日志。
步骤305、网络设备对日志数据进行数据清洗,去除日志数据中与故障定位无关的数据。
由于日志数据中存在大量和故障定位无关的数据,这些数据作为数据挖掘分类算法的训练数据的价值较低,因而可以通过数据清洗来删除这些数据。
在进行数据清洗时,网络设备可以删除日志数据中的非字母字符、与故障定位无关的数字字符(可以通过数字字符的上下文来判断其是否与故障定位有关,示例性的,可以根据数字字符在上下文中出现的频次来确定其是否与故障定位有关,将出现频次小于预设值的数字字符确定为与故障定位无关的数字字符,将出现频次大于预设值的数字字符确定为与故障定位有关的数字字符)、空行、重复行和高频词中的至少一种;和/或,网络设备将日志数据中的多行日志转换为单行日志,日志数据中一条信息可能占用了多行,将多行日志转换为单行日志能够提高日志数据中信息的完整性。
步骤306、网络设备获取数据清洗后的日志数据中的至少一个关键词。
如图3-4所示,网络设备获取数据清洗后的日志数据中的至少一个关键词的流程可以包括下面4个子步骤:
子步骤3061、网络设备将数据清洗后的日志数据中,每次告警信息产生时的日志数据分割为故障日志数据和正常日志数据。
其中,故障日志数据为包括告警信息产生时刻的第一预设时间段的日志数据,正常日志数据为第一预设时间段之前的第二预设时间段的日志数据。示例性的,第一预设时间段可以为告警信息产生时刻之前5分钟至告警信息产生时刻后的3分钟的时间段。正常日志数据为第一预设时间段之前的第二预设时间段的日志数据。示例性的,第二预设时间段可以为告警信息产生前的5分钟至告警信息产生前12分钟的时间段。
网络设备将每次告警信息产生时的日志数据分为故障日志数据和正常日志数据能够便于后续将这两种日志数据进行比较。
子步骤3062、网络设备判断数据清洗后的日志数据中,每次告警信息产生时的日志数据中是否同时包括正常日志数据和故障日志数据;在并非同时包括正常日志数据和故障日志数据时,执行步骤3063,在同时包括正常日志数据和故障日志数据时,执行步骤3064。
对于虚拟化网络中任意一个告警信息产生时的日志数据,数据清洗可能会清除掉其中的故障日志数据或正常日志数据,网络设备可以以此做判断,并分情况进行处理。
在数据清洗后的日志数据中,任一告警信息产生时的日志数据中并非同时包括正常日志数据和故障日志数据时,说明该任一告警信息产生时的故障日志数据和正常日志数据的相似度可能较小,在任一告警信息产生时的日志数据中同时包括正常日志数据和故障日志数据时,说明该任一告警信息产生时的故障日志数据和正常日志数据的相似度可能较大。这是因为数据清洗后的故障日志数据和正常日志数据,均是通过数据清洗这一个相同的规则筛选后的剩余数据,在筛选后的剩余数据仅包括其中的一种数据时,说明故障日志数据和正常日志数据的相似度可能较小,而在筛选后的剩余数据同时包括正常日志数据和故障日志数据时,说明故障日志数据和正常日志数据的相似度可能较大。
子步骤3063、网络设备获取任一告警信息产生时的日志数据中的至少一个关键词。
在数据清洗后的日志数据中,任一告警信息产生时的日志数据中并非同时包括正常日志数据和故障日志数据时,该任一告警信息产生时的故障日志数据和正常日志数据的相似度可能较小,这说明虚拟化网络在发生该任一故障时,日志的变化较大,此时获取该任一告警信息产生时的日志数据中的至少一个关键词即为与故障定位相关性较高的关键词。
本发明实施例可以通过信息检索数据挖掘的常用加权(term frequency–inversedocument frequency,TF-IDF)算法、主题模型(topic model)算法和文本排名(TextRank)算法等算法来获取日志数据中的关键词。此外,本发明实施例还可以通过其他算法来获取关键词,本发明实施例不作出限制。
子步骤3064、网络设备判断正常日志数据和故障日志数据的相似度是否小于预设值;在相似度小于预设值时,执行子步骤3065,在相似度不小于预设值时,执行子步骤3063。
在数据清洗后的日志数据中,任一告警信息产生时的日志数据中同时包括正常日志数据和故障日志数据时,说明该任一告警信息产生时的日志数据中正常日志数据和故障日志数据的相似度可能较大,此时可以直接判断正常日志数据和故障日志数据的相似度是否小于预设值。该预设值可以由操作人员预先通过多次试验获得。
网络设备可以通过正常日志数据和故障日志数据中的共有词的数量来获取正常日志数据和故障日志数据相似度,或者可以通过汉明距离算法来获取正常日志数据和故障日志数据相似度,或者可以通过编辑距离算法来获取正常日志数据和故障日志数据相似度。
子步骤3065、网络设备获取任一告警信息产生时的日志数据的至少一个关键词,并将任一告警信息产生时的日志数据中的数字字符作为关键词。
在相似度不小于预设值时,表明任一告警信息产生时的故障日志数据和正常日志数据的相似度过高,此时如果仅获取日志数据中的关键词可能无法较为全面的分析该任一告警信息产生时虚拟化网络发生的故障,因而可以将日志数据中的数字字符也作为关键词,数字字符中也有存在与故障定位有关联的数据的可能。示例性的,正常日志数据中记录了内存使用率为10%,而故障日志数据中记录了内存使用率为70%,则用于记录内存占用率的数字10和70就可能与故障定位存在关联。
步骤307、网络设备根据至少一个关键词将日志数据转换为日志特征。
日志特征用于后续作为生成故障定位模型的训练数据。而对于网络设备获取的至少一个关键词中的第一关键词(第一关键词为至少一个关键词中的任一关键词),网络设备可以根据第一关键词生成关于第一关键词的日志特征,该关于第一关键词的日志特征用于指示数据清洗后的日志数据中的每个日志是否包括该第一关键词。即关于一个关键词的日志特征可以为一个判断条件,用于判断数据清洗后的日志数据中的每个日志是否包括该关键词,并根据日志中是否包括该关键词做出不同的评价。示例性的,关于关键词K的日志特征,日志A包括关键词K时,可以将该日志的特征值设为1,而在日志A不包括该关键词时,可以将日志A的特征值设置为0。
步骤301至步骤307为本发明实施例提供的一种获取日志特征的流程。通过步骤301至步骤306,网络设备能够从大量的日志中获取日志特征。此外,网络设备还可以根据文档频率(Document Frequency,DF)算法、交互信息(Mutual Information,MI)、信息增益(Information Gain,IG)和卡方(Chi-square)算法来生成日志特征,本发明实施例不作出限制。
步骤308、网络设备根据日志特征获取训练数据。
本步骤可以包括三种实施方式:
第一种实施方式,如图3-5所示,本方式可以包括下面1个子步骤:
子步骤3081,网络设备将日志特征作为训练数据。
第二种实施方式,如图3-6所示,本方式可以包括下面4个子步骤:
子步骤3082,网络设备根据虚拟化网络中任一告警信息与该任一告警信息对应的日志特征生成日志特征序列。
其中,任一告警信息对应的日志特征为根据该任一告警信息产生时的日志数据获取的日志特征。示例性的,根据告警信息M1产生时的日志数据获取了日志特征1、日志特征2、日志特征3、日志特征4和日志特征5,则可以生成一个日志特征序列,该日志特征序列中记录有日志特征1、日志特征2、日志特征3、日志特征4和日志特征5,且该日志特征序列与告警信息M1对应。
子步骤3083,网络设备通过序列模式挖掘算法挖掘日志特征序列,得到至少一个候选序列特征。
序列模式挖掘(sequence pattern mining)算法是一种用于处理序列数据的算法,该算法能够根据序列数据得到多种序列的组合模式,网络设备可以将这多种序列的组合模式中每种序列的组合模式作为一个候选序列特征。
本发明实施例中,网络设备可以通过前缀投影的模式挖掘(Prefix-ProjectedPattern Growth,PrefixSpan)算法或广义序列模式挖掘算法(Generalized SequentialPattern mining algorithm,GSP)等算法来挖掘日志特征序列。
子步骤3084,网络设备通过序列选择算法从至少一个候选序列特征挑选出与故障定位相关的序列特征。
通过序列挖掘算法得到的候选序列特征通常较多,网络设备可以通过序列选择算法来筛选出可能和故障定位较为相关的序列特征,以减少所要处理的数据量。序列选择算法可以参考相关技术,在此不再赘述。
本步骤得到的序列特征能够反应虚拟化网络在一个较长周期中的变化。
子步骤3085,网络设备将序列特征和日志特征作为训练数据。
将序列特征和日志特征共同作为训练数据,能够更为全面的反应虚拟化网络中的各种特征。
第三种实施方式,如图3-7所示,本步骤可以包括下面2个子步骤:
子步骤3086、网络设备根据虚拟化网络中的告警信息、性能统计数据、虚拟机信息和主机信息中的至少一种信息得到虚拟化网络的专家特征。
专家特征(domain knowledge features)是本领域专家根据各自的经验来获取的一种特征。不同的专家可能根据不同的方法获取不同的专家特征,以图3-2提供的NFV架构为例,其中的性能统计数据(Performance Statistics)可以来源于OSS、虚拟机信息可以来源于VNFM、主机信息可以来源于VIM。此外,网络设备还可以根据其他信息来获取专家特征,如OSS、VNF、VNFM和VIM所获取的其他信息等。
子步骤3087、网络设备将专家特征和日志特征作为训练数据。
专家特征和日志特征共同作为训练数据可以提高训练数据的可靠性。
此外,网络设备在获取训练数据时,还可以将日志特征、序列特征和专家特征这三者共同作为训练数据,或者将序列特征作为训练数据,或者将序列特征和专家特征作为训练数据等,本发明实施例不作出限制。
步骤309、网络设备通过数据挖掘分类算法将训练数据训练为虚拟化网络的故障定位模型。
本发明实施例所使用的数据挖掘分类算法可以包括k最邻近(k-NearestNeighbor,KNN)算法、支持向量机(Support Vector Machine,SVM)算法、向量空间模型(Vector Space Model;,VSM)算法、贝叶斯分类(bayesian classifier)算法和神经网络分类算法(Neural network algorithm)等。通过这些数据挖掘分类算法,能够将训练数据训练为故障定位模型。
步骤310、网络设备对故障定位模型进行调优。
在得到故障定位模型之后,网络设备可以通过各种方式来对故障模型进行调优,以提高该故障定位模型的可靠性。示例性的,可以根据故障定位模型处于过拟合(overfitting)状态或欠拟合(underfitting)状态来对该故障定位模型进行调优。
本发明实施例所生成的故障定位模型,可以根据告警信息与VNF以及VM的对应关系,定位出是哪一个VM发生了什么故障,之后可以根据情况进行处理。示例性的,VM1发生了内存故障,则说明VM1所在的host1的内存可能存在问题,可以将VM1所在的host1上运行的VM全转移到其它host上,或者定位到VM2运行的软件故障,那么就可以采取重新初始化VM2,或者以回退软件版本的方式来解决VM2运行的软件故障。
综上所述,本发明实施例提供的故障定位模型的生成方法,通过获取告警信息产生时的日志数据,根据该日志数据来逐步获取训练数据,并根据该训练数据训练得到故障定位模型,将告警信息和训练数据关联了起来,相较于相关技术中训练数据可能遗漏大量和故障定位有关的信息,提高了依靠训练数据生成的故障定位模型的可靠性。
请参考图4-1,其为本发明实施例提供的一种故障定位方法的流程图,该故障定位方法可以包括如下几个步骤:
步骤401、在虚拟化网络发生故障时,网络设备获取虚拟化网络的故障定位模型。
该故障定位模型可以是图3-1所示实施例提供的方法生成的故障定位模型。该故障定位模型可以是预先生成的,也可以是在故障发生后生成的。本发明实施例所涉及的虚拟化网络,与图3-1所示实施例所涉及的虚拟化网络为同一个虚拟化网络。
步骤402、网络设备根据该故障定位模型对虚拟化网络发生的故障进行定位。
如图4-2所示,网络设备根据故障定位模型对虚拟化网络发生的故障进行定位的流程可以包括下面两个子步骤:
子步骤4021、网络设备获取当前故障的训练数据。
网络设备可以通过图3-1所示实施例中的步骤301至步骤308生成当前故障的训练数据。本步骤获取的训练数据与图3-1所示实施例中获取的训练数据的不同之处是本步骤是根据当前告警信息产生时的数据(告警信息产生时的数据可以参考图3-1所示实施例中的步骤3054)生成的训练数据,而图3-1所示实施例中是根据当前时刻之前的一段时间的数据生成的训练数据。
子步骤4022、网络设备将当前故障的训练数据输入故障定位模型,获取故障定位结果。
定位结果可以是对故障位置的一个预测结果,操作人员可以根据该预测结果来对虚拟化网络进行修复。修复方法可以参考相关技术,在此不再赘述。
综上所述,本发明实施例提供的故障定位方法,通过获取将训练数据中的告警信息和日志数据关联起来的故障定位模型,并根据该故障定位模型来对发生的故障进行定位,增加了定位结果的可靠性。
下述为本申请的装置实施例,可以用于执行本申请的方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图5-1,其为本发明实施例提供的一种故障定位模型的生成装置的框图,该故障定位模型的生成装置500可以包括:
时间确定模块510,用于实现上述步骤302的功能。
日志数据获取模块520,用于实现上述步骤303至步骤305的功能。
日志特征获取模块530,用于实现上述步骤305至步骤307的功能。
训练数据获取模块540,用于实现上述步骤308的功能。
模型训练模块550,用于实现上述步骤309的功能。
可选的,如图5-2所示,日志特征获取模块530,包括:
关键词获取子模块531,用于实现上述步骤306的功能。
特征生成子模块532,用于实现上述步骤307的功能。
可选的,如图5-3所示,故障定位模型的生成装置500,还包括:
告警压缩模块560,用于实现上述步骤301的功能。
可选的,如图5-4所示,关键词获取子模块531,包括:
清洗单元5311,用于实现上述步骤305的功能。
关键词获取单元5312,用于实现上述子步骤3061至子步骤3065的功能。
可选的,训练数据获取模块,用于实现上述子步骤3081至子步骤3087的功能。
综上所述,本发明实施例提供的故障定位模型的生成装置,通过获取告警信息产生时的日志数据,根据该日志数据来逐步获取训练数据,并根据该训练数据训练得到故障定位模型,将告警信息和训练数据关联了起来,提高了依靠训练数据生成的故障定位模型的可靠性。
请参考图6,其为本发明实施例提供的一种故障定位装置的框图,该故障定位装置600可以包括:
模型获取模块610,用于实现上述步骤401的功能。
定位模块620,用于实现上述步骤402的功能。
综上所述,本发明实施例提供的故障定位装置,通过获取将训练数据中的告警信息和日志数据关联起来的故障定位模型,并根据该故障定位模型来对发生的故障进行定位,增加了定位结果的可靠性。
本发明中术语“A和B的至少一种”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B的至少一种,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。同理,“A、B和C的至少一种”表示可以存在七种关系,可以表示:单独存在A,单独存在B,单独存在C,同时存在A和B,同时存在A和C,同时存在C和B,同时存在A、B和C这七种情况。同理,“A、B、C和D的至少一种”表示可以存在十五种关系,可以表示:单独存在A,单独存在B,单独存在C,单独存在D,同时存在A和B,同时存在A和C,同时存在A和D,同时存在C和B,同时存在D和B,同时存在C和D,同时存在A、B和C,同时存在A、B和D,同时存在A、C和D,同时存在B、C和D,同时存在A、B、C和D,这十五种情况。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机的可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质,或者半导体介质(例如固态硬盘)等。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (16)
1.一种故障定位模型的生成方法,其特征在于,所述方法包括:
确定虚拟化网络中告警信息产生的时间信息;
根据所述时间信息获取所述虚拟化网络中告警信息产生时的日志数据;
对所述日志数据进行数据清洗,去除所述日志数据中与故障定位无关的数据,得到数据清洗后的日志数据;
获取所述数据清洗后的日志数据中的至少一个关键词,所述获取所述数据清洗后的日志数据中的至少一个关键词,包括:判断所述数据清洗后的日志数据中,每次告警信息产生时的日志数据中是否同时包括正常日志数据和故障日志数据,所述故障日志数据为包括告警信息产生时刻的第一预设时间段的日志数据,所述正常日志数据为所述第一预设时间段之前的第二预设时间段的日志数据;在所述数据清洗后的日志数据中,任一告警信息产生时的日志数据中并非同时包括所述正常日志数据和所述故障日志数据时,获取所述任一告警信息产生时的日志数据中的至少一个关键词;在所述数据清洗后的日志数据中,所述任一告警信息产生时的日志数据中同时包括所述正常日志数据和所述故障日志数据时,判断所述正常日志数据和所述故障日志数据的相似度是否小于预设值;在所述相似度小于所述预设值时,获取所述任一告警信息产生时的日志数据的至少一个关键词;在所述相似度不小于所述预设值时,获取所述任一告警信息产生时的日志数据的至少一个关键词,并将所述任一告警信息产生时的日志数据中的数字字符作为关键词;
根据所述数据清洗后的日志数据中的至少一个关键词将所述数据清洗后的日志数据转换为日志特征;
根据所述日志特征获取训练数据;
通过数据挖掘分类算法将所述训练数据训练为所述虚拟化网络的故障定位模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述时间信息获取所述虚拟化网络中告警信息产生时的日志数据之前,所述方法还包括:
对所述虚拟化网络中产生的告警信息进行压缩处理,以去除重复的告警信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述时间信息获取所述虚拟化网络中告警信息产生时的日志数据,包括:
根据所述时间信息获取所述虚拟化网络中告警信息产生时各个网元的日志;
将所述各个网元的日志中相关联的日志进行拼接,得到所述虚拟化网络中告警信息产生时的日志数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述日志数据进行数据清洗,包括:
删除所述日志数据中的非字母字符、与故障定位无关的数字字符、空行、重复行和高频词中的至少一种;
和/或,将所述日志数据中的多行日志转换为单行日志。
5.根据权利要求1所述的方法,其特征在于,所述根据所述数据清洗后的日志数据中的至少一个关键词将所述数据清洗后的日志数据转换为日志特征,包括:
根据第一关键词将所述数据清洗后的日志数据转换为关于所述第一关键词的日志特征,所述关于所述第一关键词的日志特征用于指示所述数据清洗后的日志数据中的每个日志是否包括所述第一关键词,所述第一关键词为所述至少一个关键词中的任一关键词。
6.根据权利要求1所述的方法,其特征在于,所述根据所述日志特征获取训练数据,包括:
将所述日志特征作为所述训练数据;
或者,
根据所述虚拟化网络中任一告警信息与所述任一告警信息对应的日志特征生成日志特征序列,所述任一告警信息对应的日志特征为根据所述任一告警信息产生时的日志数据获取的日志特征;
通过序列模式挖掘算法挖掘所述日志特征序列,得到至少一个候选序列特征;
通过序列选择算法从所述至少一个候选序列特征挑选出与故障定位相关的序列特征;
将所述序列特征和所述日志特征作为所述训练数据。
7.根据权利要求1所述的方法,其特征在于,所述根据所述日志特征获取训练数据,包括:
根据所述虚拟化网络中的告警信息、性能统计数据、虚拟机信息和主机信息中的至少一种信息得到所述虚拟化网络的专家特征;
将所述专家特征和所述日志特征作为所述训练数据。
8.一种故障定位方法,其特征在于,所述方法包括:
在虚拟化网络发生故障时,获取采用权利要求1至7任一所述的方法生成的虚拟化网络的故障定位模型;
根据所述故障定位模型对所述虚拟化网络发生的故障进行定位。
9.一种故障定位模型的生成装置,其特征在于,所述故障定位模型的生成装置包括:
时间确定模块,用于确定虚拟化网络中告警信息产生的时间信息;
日志数据获取模块,用于根据所述时间信息获取所述虚拟化网络中告警信息产生时的日志数据;
日志特征获取模块,包括关键词获取子模块和特征生成子模块;
所述关键词获取子模块包括清洗单元和关键词获取单元;
所述清洗单元,用于对所述日志数据进行数据清洗,去除所述日志数据中与故障定位无关的数据;
所述关键词获取单元,用于获取所述数据清洗后的日志数据中的至少一个关键词,所述获取所述数据清洗后的日志数据中的至少一个关键词,包括:判断所述数据清洗后的日志数据中,每次告警信息产生时的日志数据中是否同时包括正常日志数据和故障日志数据,所述故障日志数据为包括告警信息产生时刻的第一预设时间段的日志数据,所述正常日志数据为所述第一预设时间段之前的第二预设时间段的日志数据;在所述数据清洗后的日志数据中,任一告警信息产生时的日志数据中并非同时包括所述正常日志数据和所述故障日志数据时,获取所述任一告警信息产生时的日志数据中的至少一个关键词;在所述数据清洗后的日志数据中,所述任一告警信息产生时的日志数据中同时包括所述正常日志数据和所述故障日志数据时,判断所述正常日志数据和所述故障日志数据的相似度是否小于预设值;在所述相似度小于所述预设值时,获取所述任一告警信息产生时的日志数据的至少一个关键词;在所述相似度不小于所述预设值时,获取所述任一告警信息产生时的日志数据的至少一个关键词,并将所述任一告警信息产生时的日志数据中的数字字符作为关键词;
所述特征生成子模块,用于根据所述数据清洗后的日志数据中的至少一个关键词将所述数据清洗后的日志数据转换为日志特征;
训练数据获取模块,用于根据所述日志特征获取训练数据;
模型训练模块,用于通过数据挖掘分类算法将所述训练数据训练为所述虚拟化网络的故障定位模型。
10.根据权利要求9所述的故障定位模型的生成装置,其特征在于,所述故障定位模型的生成装置,还包括:
告警压缩模块,用于对所述虚拟化网络中产生的告警信息进行压缩处理,以去除重复的告警信息。
11.根据权利要求9所述的故障定位模型的生成装置,其特征在于,所述日志数据获取模块,用于:
根据所述时间信息获取所述虚拟化网络中告警信息产生时各个网元的日志;
将所述各个网元的日志中相关联的日志进行拼接,得到所述虚拟化网络的日志数据。
12.根据权利要求9所述的故障定位模型的生成装置,其特征在于,所述清洗单元,用于:
删除所述日志数据中的非字母字符、与故障定位无关的数字字符、空行、重复行和高频词中的至少一种;
和/或,将所述日志数据中的多行日志转换为单行日志。
13.根据权利要求9所述的故障定位模型的生成装置,其特征在于,所述特征生成子模块,用于:
根据第一关键词将所述数据清洗后的日志数据转换为关于所述第一关键词的日志特征,所述关于所述第一关键词的日志特征用于指示所述数据清洗后的日志数据中的每个日志是否包括所述第一关键词,所述第一关键词为所述至少一个关键词中的任一关键词。
14.根据权利要求9所述的故障定位模型的生成装置,其特征在于,所述训练数据获取模块,用于:
将所述日志特征作为所述训练数据;
或者,
根据所述虚拟化网络中任一告警信息与所述任一告警信息对应的日志特征生成日志特征序列,所述任一告警信息对应的日志特征为根据所述任一告警信息产生时的日志数据获取的日志特征;
通过序列模式挖掘算法挖掘所述日志特征序列,得到至少一个候选序列特征;
通过序列选择算法从所述至少一个候选序列特征挑选出与故障定位相关的序列特征;
将所述序列特征和所述日志特征作为所述训练数据。
15.根据权利要求9所述的故障定位模型的生成装置,其特征在于,所述训练数据获取模块,用于:
根据所述虚拟化网络中的告警信息、性能统计数据、虚拟机信息和主机信息中的至少一种信息得到所述虚拟化网络的专家特征;
将所述专家特征和所述日志特征作为所述训练数据。
16.一种故障定位装置,其特征在于,所述故障定位装置包括:
模型获取模块,用于在虚拟化网络发生故障时,获取权利要求9至15任一所述的故障定位模型的生成装置生成的虚拟化网络的故障定位模型;
定位模块,用于根据所述故障定位模型对所述虚拟化网络发生的故障进行定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710301801.5A CN107248927B (zh) | 2017-05-02 | 2017-05-02 | 故障定位模型的生成方法、故障定位方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710301801.5A CN107248927B (zh) | 2017-05-02 | 2017-05-02 | 故障定位模型的生成方法、故障定位方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107248927A CN107248927A (zh) | 2017-10-13 |
CN107248927B true CN107248927B (zh) | 2020-06-09 |
Family
ID=60016547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710301801.5A Active CN107248927B (zh) | 2017-05-02 | 2017-05-02 | 故障定位模型的生成方法、故障定位方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107248927B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11797538B2 (en) | 2020-12-03 | 2023-10-24 | International Business Machines Corporation | Message correlation extraction for mainframe operation |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109905261A (zh) * | 2017-12-08 | 2019-06-18 | 华为技术有限公司 | 故障诊断方法及装置 |
CN108259241A (zh) * | 2018-01-11 | 2018-07-06 | 上海有云信息技术有限公司 | 一种云平台监控系统的异常定位方法和装置 |
CN108491305B (zh) * | 2018-03-09 | 2021-05-25 | 网宿科技股份有限公司 | 一种服务器故障的检测方法及系统 |
CN109902283B (zh) * | 2018-05-03 | 2023-06-06 | 华为技术有限公司 | 一种信息输出方法及装置 |
CN108664374B (zh) * | 2018-05-17 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 故障告警模型创建方法、装置、故障告警方法及装置 |
CN110545195A (zh) * | 2018-05-29 | 2019-12-06 | 华为技术有限公司 | 网络故障分析方法及装置 |
CN108897674A (zh) * | 2018-07-12 | 2018-11-27 | 郑州云海信息技术有限公司 | 一种日志分析方法与装置 |
CN111045902A (zh) * | 2018-10-10 | 2020-04-21 | 中国移动通信集团浙江有限公司 | 服务器的压力测试方法及装置 |
CN111078513B (zh) * | 2018-10-22 | 2024-02-27 | 杭州海康威视数字技术股份有限公司 | 日志处理方法、装置、设备、存储介质及日志告警系统 |
CN109634838A (zh) * | 2018-10-25 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 定位应用程序故障的方法、装置、存储介质和电子设备 |
CN109309594B (zh) * | 2018-11-27 | 2021-11-16 | 中国联合网络通信集团有限公司 | 通信设备电源故障分析的方法、装置、设备及存储介质 |
CN109726186B (zh) * | 2018-12-29 | 2021-08-06 | 咪咕文化科技有限公司 | 一种检索错误日志的方法及装置、计算机可读存储介质 |
CN109450955B (zh) * | 2018-12-30 | 2022-04-05 | 北京世纪互联宽带数据中心有限公司 | 一种基于网络攻击的流量处理方法及装置 |
CN112202584B (zh) * | 2019-07-08 | 2022-07-29 | 中国移动通信集团浙江有限公司 | 告警关联方法、装置、计算设备及计算机存储介质 |
CN110445665B (zh) * | 2019-09-06 | 2022-06-14 | 国网江苏省电力有限公司信息通信分公司 | 基于改进gsp的电力通信网络告警关联挖掘方法 |
CN110855503A (zh) * | 2019-11-22 | 2020-02-28 | 叶晓斌 | 一种基于网络协议层级依赖关系的故障定因方法和系统 |
CN111143303B (zh) * | 2019-12-31 | 2023-06-02 | 海南电网有限责任公司信息通信分公司 | 一种基于信息增益和改进knn算法的日志分类方法 |
CN113497716B (zh) | 2020-03-18 | 2023-03-10 | 华为技术有限公司 | 相似故障推荐方法及相关设备 |
CN114143162A (zh) * | 2020-08-13 | 2022-03-04 | 中盈优创资讯科技有限公司 | 基于缓存的网络设备syslog信息的规则匹配方法 |
CN114257502B (zh) * | 2020-09-21 | 2023-08-22 | 华为终端有限公司 | 一种日志上报方法及装置 |
CN112418449A (zh) * | 2020-10-13 | 2021-02-26 | 国网山东省电力公司莘县供电公司 | 一种供电线路故障定位模型的生成方法、定位方法、装置 |
US11995562B2 (en) | 2020-12-03 | 2024-05-28 | International Business Machines Corporation | Integrating documentation knowledge with log mining for system diagnosis |
US11474892B2 (en) | 2020-12-03 | 2022-10-18 | International Business Machines Corporation | Graph-based log sequence anomaly detection and problem diagnosis |
US11243835B1 (en) | 2020-12-03 | 2022-02-08 | International Business Machines Corporation | Message-based problem diagnosis and root cause analysis |
US11403326B2 (en) | 2020-12-03 | 2022-08-02 | International Business Machines Corporation | Message-based event grouping for a computing operation |
US11513930B2 (en) | 2020-12-03 | 2022-11-29 | International Business Machines Corporation | Log-based status modeling and problem diagnosis for distributed applications |
US11599404B2 (en) | 2020-12-03 | 2023-03-07 | International Business Machines Corporation | Correlation-based multi-source problem diagnosis |
CN113626136B (zh) * | 2021-06-30 | 2023-12-22 | 济南浪潮数据技术有限公司 | 一种虚拟机故障检测方法和装置 |
CN113596891B (zh) * | 2021-07-28 | 2023-07-14 | 中国联合网络通信集团有限公司 | 故障定位方法、装置、服务器、存储介质及系统 |
CN114844778B (zh) * | 2022-04-25 | 2023-05-30 | 中国联合网络通信集团有限公司 | 核心网的异常检测方法、装置、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103201718A (zh) * | 2010-11-05 | 2013-07-10 | 乐天株式会社 | 关于关键词提取的系统和方法 |
CN106254144A (zh) * | 2016-09-06 | 2016-12-21 | 华为技术有限公司 | 故障定位平台、故障定位方法及装置 |
CN106570513A (zh) * | 2015-10-13 | 2017-04-19 | 华为技术有限公司 | 大数据网络系统的故障诊断方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7113950B2 (en) * | 2002-06-27 | 2006-09-26 | Microsoft Corporation | Automated error checking system and method |
-
2017
- 2017-05-02 CN CN201710301801.5A patent/CN107248927B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103201718A (zh) * | 2010-11-05 | 2013-07-10 | 乐天株式会社 | 关于关键词提取的系统和方法 |
CN106570513A (zh) * | 2015-10-13 | 2017-04-19 | 华为技术有限公司 | 大数据网络系统的故障诊断方法和装置 |
CN106254144A (zh) * | 2016-09-06 | 2016-12-21 | 华为技术有限公司 | 故障定位平台、故障定位方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于告警日志的网络故障预测;钟将;《计算机应用》;20160610;正文第2-4页,图3 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11797538B2 (en) | 2020-12-03 | 2023-10-24 | International Business Machines Corporation | Message correlation extraction for mainframe operation |
Also Published As
Publication number | Publication date |
---|---|
CN107248927A (zh) | 2017-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107248927B (zh) | 故障定位模型的生成方法、故障定位方法和装置 | |
CN109034993B (zh) | 对账方法、设备、系统及计算机可读存储介质 | |
CN110574338B (zh) | 根本原因发现方法及系统 | |
US10692065B2 (en) | Using a mixture model to generate simulated transaction information | |
US10216607B2 (en) | Dynamic tracing using ranking and rating | |
US11294754B2 (en) | System and method for contextual event sequence analysis | |
EP3971798A1 (en) | Data processing method and apparatus, and computer readable storage medium | |
US7496795B2 (en) | Method, system, and computer program product for light weight memory leak detection | |
US10878335B1 (en) | Scalable text analysis using probabilistic data structures | |
CN111522703B (zh) | 监控访问请求的方法、设备和计算机程序产品 | |
US11521082B2 (en) | Prediction of a data protection activity time for a backup environment | |
CN109582213B (zh) | 数据重构方法及装置、数据存储系统 | |
US9772871B2 (en) | Apparatus and method for leveraging semi-supervised machine learning for self-adjusting policies in management of a computer infrastructure | |
US9342390B2 (en) | Cluster management in a shared nothing cluster | |
WO2015009405A1 (en) | Systems and methods for filtering low utility value messages from system logs | |
US10891178B2 (en) | Method and device for identifying problematic component in storage system | |
US11416321B2 (en) | Component failure prediction | |
CN111858146B (zh) | 用于恢复数据的方法、设备和计算机程序产品 | |
US11762720B2 (en) | Information processing apparatus and non-transitory computer-readable storage medium for storing API use history display program | |
CN110515758A (zh) | 一种故障定位方法、装置、计算机设备及存储介质 | |
CN115827436A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN109800052B (zh) | 应用于分布式容器云平台的异常检测与定位方法及装置 | |
TW201435744A (zh) | 回復虛擬機器影像之一先前版本 | |
CN108647284B (zh) | 记录用户行为的方法及装置、介质和计算设备 | |
CN113961465A (zh) | 程序崩溃场景的复现处理方法、设备及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |