CN111651340A - 告警数据规则挖掘方法、装置及电子设备 - Google Patents

告警数据规则挖掘方法、装置及电子设备 Download PDF

Info

Publication number
CN111651340A
CN111651340A CN202010521505.8A CN202010521505A CN111651340A CN 111651340 A CN111651340 A CN 111651340A CN 202010521505 A CN202010521505 A CN 202010521505A CN 111651340 A CN111651340 A CN 111651340A
Authority
CN
China
Prior art keywords
alarm data
alarm
pointer
piece
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010521505.8A
Other languages
English (en)
Other versions
CN111651340B (zh
Inventor
王建华
田贵成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Wisdom Shanghai Technology Co ltd
Original Assignee
Innovation Wisdom Shanghai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Wisdom Shanghai Technology Co ltd filed Critical Innovation Wisdom Shanghai Technology Co ltd
Priority to CN202010521505.8A priority Critical patent/CN111651340B/zh
Publication of CN111651340A publication Critical patent/CN111651340A/zh
Application granted granted Critical
Publication of CN111651340B publication Critical patent/CN111651340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提供了一种告警数据规则挖掘方法、装置及电子设备,其中,该方法包括:将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据的词向量表示,告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;将每条告警数据的词向量表示进行聚类训练,以得到每条告警数据的词向量表示的聚类标识;根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。

Description

告警数据规则挖掘方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种告警数据规则挖掘方法、装置及电子设备。
背景技术
在计算机的安全监控中,一般会监控过程中采集日志数据,以使运维人员根据日志数据进行排查错误、修复相关告警等。但实际中,日志数据存在数据量大、稀疏性高、相互独立、没有关联性等问题。
发明内容
有鉴于此,本申请实施例的目的在于提供一种告警数据规则挖掘方法、装置及电子设备。能够解决上述日志数据之间存在关联性不足的效果。
第一方面,本申请实施例提供了一种告警数据规则挖掘方法,包括:
将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据的词向量表示,所述告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;
将每条告警数据的词向量表示进行聚类训练,以得到每条告警数据的词向量表示的聚类标识;
根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对所述告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。
在一种可选的实施方式中,所述将所述告警数据集中的每条告警数据进行处理,以得到每条告警数据对应的词向量表示的步骤,包括:
将所述告警数据集中的每条告警数据进行词向量计算,以得到每条告警数据中所包含的多个词向量;
使用指定统计算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。
本申请实施例提供的告警数据规则挖掘方法,通过向确定每个词对应的词向量,基于多个词向量得出每条告警数据的词向量表示,确定出的词向量能够更完整地表达每条告警数据。
在一种可选的实施方式中,所述将所述告警数据集中的每条告警数据进行词向量计算,以得到每条告警数据中所包含的多个词向量的步骤,包括:
将所述告警数据集中的每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词;
将每条告警数据中所包含的多个词进行词向量计算,以得到每条告警数据对应的多个词向量。
本申请实施例提供的告警数据规则挖掘方法,还可以先采用分词,再对分词得到的各个词转化为词向量,从而可以使确定出的词向量能够更准确地表达告警数据中的含义。
在一种可选的实施方式中,所述将所述告警数据集中的每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词的步骤,包括:
将所述告警数据集进行去重处理,得到清洗告警数据集;
根据所述清洗告警数据集构建告警词典;
将所述告警词典中的每条告警数据进行分词处理,得到每条告警数据中所包含的多个词。
本申请实施例提供的告警数据规则挖掘方法,还可以先构建告警词典,基于告警词典对告警数据进行分词,从而可以使分的多个词能够更好地表达告警数据所需表达的含义。
在一种可选的实施方式中,所述使用指定统计算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示的步骤,包括:
使用TF-IDF算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。
本申请实施例提供的告警数据规则挖掘方法,还可以基于TF-IDF确定出各个告警数据的各个词向量的权重,从而可以使词向量表示能够突出告警数据的重点,提高词向量表示的准确性。
在一种可选的实施方式中,所述根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集的步骤,包括:
根据所有的词向量表示的聚类标识形成的告警序列,构建告警事务数据库;
使用关联分析算法对所述告警事务数据库进行分析,以得到告警频繁模式集。
在一种可选的实施方式中,所述根据所有的词向量表示的聚类标识形成的告警序列,构建告警事务数据库的步骤,包括:
第一指针从所有的词向量表示的聚类标识形成的告警序列的第一个样本开始,第二指针从第二个样本开始,在告警序列中逐步移动所述第一指针和所述第二指针;
当所述第一指针与所述第二指针的距离未达到指定数量的样本时,若所述第二指针指向的样本的聚类标识与所述第一指针与所述第二指针之间的任意样本的聚类标识相同,则将所述第一指针和所述第二指针之间的样本集形成一子事务集,存入告警事务数据库中,且将所述第一指针跳转到所述告警序列中未被遍历的所有样本中的首个样本处;若所述第二指针指向的样本的聚类标识与所述第一指针与所述第二指针之间的任意样本的聚类标识不相同,则将第二指针在告警序列中逐步移动;
当所述第一指针与所述第二指针的距离达到指定数量的样本时,则将所述第一指针和所述第二指针之间的样本集形成一子事务集,存入所述告警事务数据库中,且将所述第一指针跳转到所述告警序列中未被遍历的所有样本中的首个样本处,直到遍历完所述告警序列。
本申请实施例提供的告警数据规则挖掘方法,还可以通过上述的方式能够先构建告警事务数据库,再基于构建的告警事务数据库构建告警频繁模式集,可以使构建的告警频繁模式集之间的关联更准确。
第二方面,本申请实施例还提供一种告警数据规则挖掘装置,包括:
处理模块,用于将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据对应的词向量表示,所述告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;
聚类模块,用于将所有告警数据的词向量表示进行聚类训练,以得到每条所述词向量表示的聚类标识;
分析模块,用于根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的任一种可能的实施方式中的告警数据规则挖掘方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的任一种可能的实施方式中的告警数据规则挖掘方法的步骤。
本申请实施例提供的告警数据规则挖掘方法、装置、电子设备及计算机可读存储介质,采用聚类训练确定出各个告警数据之间的关联,再次,根据关联分析确定出告警数据之间的关联性。与现有技术中的日志数据之间较为离散相比,其能够表达出各个告警数据之间的关联,从而使得到的告警频繁模式集可以辅助相关维护人员。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的方框示意图。
图2为本申请实施例提供的告警数据规则挖掘方法的流程图。
图3为本申请实施例提供的告警数据规则挖掘方法的步骤201的详细流程图。
图4为本申请实施例提供的告警数据规则挖掘方法的步骤203的详细流程图。
图5a为本申请实施例提供的告警数据规则挖掘方法中构建告警事务数据库方式示意图。
图5b为本申请实施例提供的另一告警数据规则挖掘方法中构建告警事务数据库方式示意图。
图6为本申请实施例提供的告警数据规则挖掘装置的功能模块示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
日志数据运维人员及其重要可以帮助运维人员排查错误、修复相关告警。但实际中,日志数据存在数据量大、稀疏性高、相互独立、没有关联性等问题。因此,目前的日志数据给运维人员了解计算机可能存在的异常,以及对异常告警脉络的梳理,处理预防性告警等带来很大的干扰。
基于上述研究,本申请发明人提供一种告警关联规则挖掘通常是基于关联规则算法,如,Apriori和FPGrowth进行频繁项抽取。但是,还可能存在两个重要问题,一是如何构造告警序列;二是在告警序列上如何构造事务数据库以供算法使用。本申请发明人进行了研究,针对上述第一个问题,可以通过文本语义聚类将告警数据转化为聚类ID表示的告警序列;针对上述第二个问题,通过左右指针滑窗的方式构造事务数据库,在提高滑窗效率的同时,可以筛选重复的告警项。基于上述研究,本申请实施例提供了告警数据规则挖掘方法、装置、电子设备及计算机可读存储介质。下面通过几个实施例进行描述。
实施例一
为便于对本实施例进行理解,首先对执行本申请实施例所公开的告警数据规则挖掘方法的电子设备进行详细介绍。
如图1所示,是电子设备的方框示意图。电子设备100可以包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115、显示单元116。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对电子设备100的结构造成限定。例如,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
上述的存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115及显示单元116各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。
其中,存储器111可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序,本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中,或者由处理器113实现。
上述的处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述的外设接口114将各种输入/输出装置耦合至处理器113以及存储器111。在一些实施例中,外设接口114,处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
上述的输入输出单元115用于提供给用户输入数据。所述输入输出单元115可以是,但不限于,鼠标和键盘等。
上述的显示单元116在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述告警数据规则挖掘方法的实现过程。
实施例二
请参阅图2,是本申请实施例提供的告警数据规则挖掘方法的流程图。下面将对图2所示的具体流程进行详细阐述。
步骤201,将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据的词向量表示。
本实施例中,告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息。
示例性地,每个词向量表示可以包括一项或多项词向量构成
可选地,如图3所示,步骤201可以包括以下步骤。
步骤2011,将所述告警数据集中的每条告警数据进行词向量计算,以得到每条告警数据中所包含的多个词向量。
步骤2011,可以包括以下步骤。
步骤a,将所述告警数据集中的每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词。
可选地,可以使用jieba分词算法对每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词。
在一种实施方式中,步骤a可以包括:将所述告警数据集进行去重处理,得到清洗告警数据集;根据所述清洗告警数据集构建告警词典;将所述告警词典中的每条告警数据进行分词处理,得到每条告警数据中所包含的多个词。
示例性地,每条告警数据可能存在一些重复的词进行去重处理、不完整的词进行剔除处理等处理,从而得到清洗告警数据集。
可选地,可以先将告警数据集按照时间顺序进行排序,以得到有序告警数据集。然后,在进行去重处理,得到清洗告警数据集。
在一种实施方式中,步骤a可以包括:根据所述告警数据集构建告警词典;将所述告警词典中的每条告警数据进行分词处理,得到每条告警数据中所包含的多个词。
可选地,可以将清洗告警数据集按照设定规律进行重置,以得到告警词典。示例性地,设定规律可以是按照时间顺序进行排序。示例性地,设定规律可以是将清洗告警数据集填充至预设的表中。
步骤b,将每条告警数据中所包含的多个词进行词向量计算,以得到每条告警数据对应的多个词向量。
可选地,可以使用Word2Vec算法对告警数据集进行词向量训练,得到多个词向量。
示例性地,每个词向量的长度可以是64。
步骤2012,使用指定统计算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。
在一个实例中,其中一条告警数据可以包括三个词,分别为词A、词B、词C。词A对应的词向量可以是w1,词B对应的词向量可以是w2,词C对应的词向量可以是w3。词向量w1对应的权重可以是β1,词向量w2对应的权重可以是β2,词向量w3对应的权重可以是β3。此实例中,告警数据对应的词向量表示可以表达为:(w1*β1+w2*β2+w3*β3)/3。
可选地,步骤2012可以被实施为:使用TF-IDF算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。
步骤202,将每条告警数据的词向量表示进行聚类训练,以得到每条告警数据的词向量表示的聚类标识。
可选地,聚类训练可以使用基于划分的聚类算法实现。示例性地,聚类算法可以是:Kmeans聚类算法、CLARA(Clustering LARge Applications,大型应用中的聚类方法)算法、PCM模糊聚类算法等。
示例性地,使用Kmeans聚类算法在告警数据集上进行聚类训练。例如,聚类结果是K个类簇,每条告警数据所属的类别可以是1、2、3、…i、…、K。
可选地,可以使用每条告警数据的聚类标识组合成告警序列。
示例性地,告警数据集中可以包括m条告警数据,则告警序列则可以表示为:I1、I2、I3、…、Ii、…Im。Ii为第i个告警数据对应的聚类标识(clusterID)。
步骤203,根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对所述告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。
可选地,如图4所示,步骤203可以包括以下步骤。
步骤2031,根据所有的词向量表示的聚类标识形成的告警序列,构建告警事务数据库。
步骤2031可以包括:
第一指针从所有的词向量表示的聚类标识形成的告警序列的第一个样本开始,第二指针从第二个样本开始,在告警序列中逐步移动所述第一指针和所述第二指针;
当所述第一指针与所述第二指针的距离未达到指定数量的样本时,若所述第二指针指向的样本的聚类标识与所述第一指针与所述第二指针之间的任意样本的聚类标识相同,则将所述第一指针和所述第二指针之间的样本集形成一子事务集,存入告警事务数据库中,且将所述第一指针跳转到所述告警序列中未被遍历的所有样本中的首个样本处;若所述第二指针指向的样本的聚类标识与所述第一指针与所述第二指针之间的任意样本的聚类标识不相同,则将第二指针在告警序列中逐步移动;
当所述第一指针与所述第二指针的距离达到指定数量的样本时,则将所述第一指针和所述第二指针之间的样本集形成一子事务集,存入所述告警事务数据库中,且将所述第一指针跳转到所述告警序列中未被遍历的所有样本中的首个样本处,直到遍历完所述告警序列。
下面通过一个实例进行详细描述。
在本实例中,指定数量可以是四。请参阅图5a和图5b,上述的第一指针可以是图示中的指针P1,第二指针可以是图示中的指针P2。其中指针P1可以从告警序列的聚类标识I1开始,指针P2从告警序列的聚类标识I2开始向后移动。
如图5a所示,当指针P1指向聚类标识I2与指针P2指向聚类标识I4,指针P1与指针P2距离为三时,则判断指针P1指向的聚类标识I2与指针P2指向聚类标识I4是否为相同聚类标识,如果聚类标识I2与聚类标识I4不相同,则指针P2继续向后移动,移动至图5b所示的聚类标识I5所在位置。如果聚类标识I2与聚类标识I4相同,则聚类标识I2、聚类标识I3、聚类标识I4对应的样本形成一子事务集。形成了子事务集后,则将指针P1移动至聚类标识I5处,指针P2从聚类标识I6处开始遍历。
如图5b所示,指针P1指向聚类标识I2与指针P2指向聚类标识I4,指针P1与指针P2距离为四,则聚类标识I2、聚类标识I3、聚类标识I4、聚类标识I5对应的样本形成一子事务集。形成了子事务集后,则将指针P1移动至聚类标识I6处,指针P2从聚类标识I7处开始遍历。
通过上述的遍历方式,直到将告警序列中的聚类标识遍历完成,形成告警事务数据库。
步骤2032,使用关联分析算法对所述告警事务数据库进行分析,以得到告警频繁模式集。
可选地,可以使用FPGrowth算法对告警事务数据库中的告警数据进行关联分析,以得到告警频繁模式集。
示例性地,关联分析的结果可以是得到{cluster1:(cluster2,cluster3),0.5},表示发生cluster1类告警后,再发生(cluster2,cluster3)类告警的置信度为0.5。
本实施例中的告警数据规则挖掘方法,可以先得到告警数据的向量表示,再根据聚类算法可以得到各个告警数据的聚类标识,进一步地得到告警频繁模式集中。从而可以得到能够表达各个告警数据之间的关联性。
实施例三
基于同一申请构思,本申请实施例中还提供了与告警数据规则挖掘方法对应的告警数据规则挖掘装置,由于本申请实施例中的装置解决问题的原理与前述的告警数据规则挖掘方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图6,是本申请实施例提供的告警数据规则挖掘装置的功能模块示意图。本实施例中的告警数据规则挖掘装置中的各个模块用于执行上述方法实施例中的各个步骤。告警数据规则挖掘装置包括:处理模块301、聚类模块302、以及分析模块303;其中,
处理模块301,用于将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据对应的词向量表示,所述告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;
聚类模块302,用于将所有告警数据的词向量表示进行聚类训练,以得到每条所述词向量表示的聚类标识;
分析模块303,用于根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。
一种可能的实施方式中,处理模块301包括:第一计算单元和第二计算单元。
第一计算单元,用于将所述告警数据集中的每条告警数据进行词向量计算,以得到每条告警数据中所包含的多个词向量;
第二计算单元,用于使用指定统计算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。
一种可能的实施方式中,第一计算单元,用于:
将所述告警数据集中的每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词;
将每条告警数据中所包含的多个词进行词向量计算,以得到每条告警数据对应的多个词向量。
一种可能的实施方式中,第一计算单元,用于:
将所述告警数据集进行去重处理,得到清洗告警数据集;
根据所述清洗告警数据集构建告警词典;
将所述告警词典中的每条告警数据进行分词处理,得到每条告警数据中所包含的多个词。
一种可能的实施方式中,第二计算单元,用于:
使用TF-IDF算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。
一种可能的实施方式中,分析模块303包括:形成单元和分析单元。
形成单元,用于根据所有的词向量表示的聚类标识形成的告警序列,构建告警事务数据库;
分析单元,用于使用关联分析算法对所述告警事务数据库进行分析,以得到告警频繁模式集。
一种可能的实施方式中,形成单元,用于:
第一指针从所有的词向量表示的聚类标识形成的告警序列的第一个样本开始,第二指针从第二个样本开始,在告警序列中逐步移动所述第一指针和所述第二指针;
当所述第一指针与所述第二指针的距离未达到指定数量的样本时,若所述第二指针指向的样本的聚类标识与所述第一指针与所述第二指针之间的任意样本的聚类标识相同,则将所述第一指针和所述第二指针之间的样本集形成一子事务集,存入告警事务数据库中,且将所述第一指针跳转到所述告警序列中未被遍历的所有样本中的首个样本处;若所述第二指针指向的样本的聚类标识与所述第一指针与所述第二指针之间的任意样本的聚类标识不相同,则将第二指针在告警序列中逐步移动;
当所述第一指针与所述第二指针的距离达到指定数量的样本时,则将所述第一指针和所述第二指针之间的样本集形成一子事务集,存入所述告警事务数据库中,且将所述第一指针跳转到所述告警序列中未被遍历的所有样本中的首个样本处,直到遍历完所述告警序列。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的告警数据规则挖掘方法的步骤。
本申请实施例所提供的告警数据规则挖掘方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的告警数据规则挖掘方法的步骤,具体可参见上述方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种告警数据规则挖掘方法,其特征在于,包括:
将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据的词向量表示,所述告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;
将每条告警数据的词向量表示进行聚类训练,以得到每条告警数据的词向量表示的聚类标识;
根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对所述告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。
2.根据权利要求1所述的方法,其特征在于,所述将所述告警数据集中的每条告警数据进行处理,以得到每条告警数据对应的词向量表示的步骤,包括:
将所述告警数据集中的每条告警数据进行词向量计算,以得到每条告警数据中所包含的多个词向量;
使用指定统计算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。
3.根据权利要求2所述的方法,其特征在于,所述将所述告警数据集中的每条告警数据进行词向量计算,以得到每条告警数据中所包含的多个词向量的步骤,包括:
将所述告警数据集中的每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词;
将每条告警数据中所包含的多个词进行词向量计算,以得到每条告警数据对应的多个词向量。
4.根据权利要求3所述的方法,其特征在于,所述将所述告警数据集中的每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词的步骤,包括:
将所述告警数据集进行去重处理,得到清洗告警数据集;
根据所述清洗告警数据集构建告警词典;
将所述告警词典中的每条告警数据进行分词处理,得到每条告警数据中所包含的多个词。
5.根据权利要求2所述的方法,其特征在于,所述使用指定统计算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示的步骤,包括:
使用TF-IDF算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。
6.根据权利要求1所述的方法,其特征在于,所述根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集的步骤,包括:
根据所有的词向量表示的聚类标识形成的告警序列,构建告警事务数据库;
使用关联分析算法对所述告警事务数据库进行分析,以得到告警频繁模式集。
7.根据权利要求1所述的方法,其特征在于,所述根据所有的词向量表示的聚类标识形成的告警序列,构建告警事务数据库的步骤,包括:
第一指针从所有的词向量表示的聚类标识形成的告警序列的第一个样本开始,第二指针从第二个样本开始,在告警序列中逐步移动所述第一指针和所述第二指针;
当所述第一指针与所述第二指针的距离未达到指定数量的样本时,若所述第二指针指向的样本的聚类标识与所述第一指针与所述第二指针之间的任意样本的聚类标识相同,则将所述第一指针和所述第二指针之间的样本集形成一子事务集,存入告警事务数据库中,且将所述第一指针跳转到所述告警序列中未被遍历的所有样本中的首个样本处;若所述第二指针指向的样本的聚类标识与所述第一指针与所述第二指针之间的任意样本的聚类标识不相同,则将第二指针在告警序列中逐步移动;
当所述第一指针与所述第二指针的距离达到指定数量的样本时,则将所述第一指针和所述第二指针之间的样本集形成一子事务集,存入所述告警事务数据库中,且将所述第一指针跳转到所述告警序列中未被遍历的所有样本中的首个样本处,直到遍历完所述告警序列。
8.一种告警数据规则挖掘装置,其特征在于,包括:
处理模块,用于将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据对应的词向量表示,所述告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;
聚类模块,用于将所有告警数据的词向量表示进行聚类训练,以得到每条所述词向量表示的聚类标识;
分析模块,用于根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。
9.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法的步骤。
CN202010521505.8A 2020-06-10 2020-06-10 告警数据规则挖掘方法、装置及电子设备 Active CN111651340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010521505.8A CN111651340B (zh) 2020-06-10 2020-06-10 告警数据规则挖掘方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010521505.8A CN111651340B (zh) 2020-06-10 2020-06-10 告警数据规则挖掘方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111651340A true CN111651340A (zh) 2020-09-11
CN111651340B CN111651340B (zh) 2023-07-18

Family

ID=72347488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010521505.8A Active CN111651340B (zh) 2020-06-10 2020-06-10 告警数据规则挖掘方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111651340B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985192A (zh) * 2020-09-28 2020-11-24 杭州安恒信息安全技术有限公司 一种Web攻击报告生成方法、装置、设备及计算机介质
CN112988509A (zh) * 2021-03-09 2021-06-18 京东数字科技控股股份有限公司 一种告警消息过滤方法、装置、电子设备及存储介质
CN114844767A (zh) * 2022-04-27 2022-08-02 中国电子科技集团公司第五十四研究所 一种基于对抗生成网络的告警数据生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918629A (zh) * 2016-10-11 2018-04-17 北京神州泰岳软件股份有限公司 一种告警故障的关联方法和装置
CN109117941A (zh) * 2018-07-16 2019-01-01 北京思特奇信息技术股份有限公司 告警预测方法、系统、存储介质及计算机设备
CN109922069A (zh) * 2019-03-13 2019-06-21 中国科学技术大学 高级持续性威胁的多维关联分析方法及系统
CN110414591A (zh) * 2019-07-24 2019-11-05 腾讯科技(武汉)有限公司 一种数据处理方法以及设备
US20190357010A1 (en) * 2018-05-16 2019-11-21 International Business Machines Corporation Smart location alert system
CN110851321A (zh) * 2019-10-10 2020-02-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918629A (zh) * 2016-10-11 2018-04-17 北京神州泰岳软件股份有限公司 一种告警故障的关联方法和装置
US20190357010A1 (en) * 2018-05-16 2019-11-21 International Business Machines Corporation Smart location alert system
CN109117941A (zh) * 2018-07-16 2019-01-01 北京思特奇信息技术股份有限公司 告警预测方法、系统、存储介质及计算机设备
CN109922069A (zh) * 2019-03-13 2019-06-21 中国科学技术大学 高级持续性威胁的多维关联分析方法及系统
CN110414591A (zh) * 2019-07-24 2019-11-05 腾讯科技(武汉)有限公司 一种数据处理方法以及设备
CN110851321A (zh) * 2019-10-10 2020-02-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985192A (zh) * 2020-09-28 2020-11-24 杭州安恒信息安全技术有限公司 一种Web攻击报告生成方法、装置、设备及计算机介质
CN112988509A (zh) * 2021-03-09 2021-06-18 京东数字科技控股股份有限公司 一种告警消息过滤方法、装置、电子设备及存储介质
CN114844767A (zh) * 2022-04-27 2022-08-02 中国电子科技集团公司第五十四研究所 一种基于对抗生成网络的告警数据生成方法

Also Published As

Publication number Publication date
CN111651340B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
US11243993B2 (en) Document relationship analysis system
Lai et al. A method for pattern mining in multiple alarm flood sequences
CN111651340B (zh) 告警数据规则挖掘方法、装置及电子设备
Cheng et al. Pattern matching of alarm flood sequences by a modified Smith–Waterman algorithm
US9298538B2 (en) Methods and systems for abnormality analysis of streamed log data
US10452627B2 (en) Column weight calculation for data deduplication
CN111666198A (zh) 日志异常监控方法、装置及电子设备
EP3333757B1 (en) Predictive anomaly detection
KR102105319B1 (ko) Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
CN112149737A (zh) 选择模型训练方法、模型选择方法、装置及电子设备
CN112433874A (zh) 一种故障定位方法、系统、电子设备及存储介质
CN111400435B (zh) 邮件告警收敛方法、装置、计算机设备及存储介质
CN114327964A (zh) 业务系统的故障原因处理方法、装置、设备及存储介质
CN109656928B (zh) 表间关系获得方法及装置
CN112487021B (zh) 业务数据的关联分析方法、装置及设备
Zwietasch Detecting anomalies in system log files using machine learning techniques
US20120078912A1 (en) Method and system for event correlation
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN115932144B (zh) 色谱仪性能检测方法、装置、设备和计算机介质
US20230161319A1 (en) Computer-implemented method for recognizing an input pattern in at least one time series of a plurality of time series
CN115470034A (zh) 一种日志分析方法、设备及存储介质
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
US11243937B2 (en) Log analysis apparatus, log analysis method, and log analysis program
Peruzzo et al. Pattern-based feature extraction for fault detection in quality relevant process control
Rubio et al. A consensus algorithm for approximate string matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant