CN113657461A - 基于文本分类的日志异常检测方法、系统、设备及介质 - Google Patents
基于文本分类的日志异常检测方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113657461A CN113657461A CN202110858509.XA CN202110858509A CN113657461A CN 113657461 A CN113657461 A CN 113657461A CN 202110858509 A CN202110858509 A CN 202110858509A CN 113657461 A CN113657461 A CN 113657461A
- Authority
- CN
- China
- Prior art keywords
- log
- prediction
- data
- result
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 230000002159 abnormal effect Effects 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 230000005856 abnormality Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008263 repair mechanism Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明提供一种基于文本分类的日志异常检测方法、系统、设备及介质,方法包括:获取日志数据,并对其进行预处理;将经预处理后的日志数据输入日志预测模型组,日志预测模型组包括至少n项日志预测模型;其中,n为大于1的整数;日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的;针对每个日志预测模型,基于经预处理后的日志数据,得到预测结果;对n项日志预测模型输出的预测结果进行投票融合,以输出预测日志分类结果。本发明通过n项日志预测模型分别对容器的日志数据进行预测,并对n个预测结果进行投票融合,以提高预测结果的准确性,从而智能识别应用日志异常点,保障现有服务水平的条件下降低系统运维成本。
Description
技术领域
本发明涉及计算机技术运维技术领域,尤其涉及一种基于文本分 类的日志异常检测方法、系统、设备及介质。
背景技术
随着电信行业环境的深刻变化,系统容器化越来越普及,自动扩 缩容的容器级日志不断增加和变化,造成故障定位设计的问题种类繁 多,成本管控能力将成为企业核心竞争力的重要组成部分,容量日志 也引起企业越来越大的重视。
传统的日志分析是直接采集日志,并通过人为观察日志当中是否 存在异常关键字,基于关键字对日志简单分类。在实际生产过程当中, 企业IT系统将生成大量日志,存在人为漏判的可能。其次人为根据 经验及关键字在判断异常日志的过程当中,准确率无法保证。当大批 量业务请求冲击时,现有的IT系统应用日志充斥大量低级告警数据, 信息冗余度高,语义级别低,无法直观展示问题的信息点,主要体现 在如下问题:
缺乏日志自动分析能力,无法深入挖掘问题根因:运维监控人员 提供日志聚合视图,无论是硬件线程过载、内存不足、IO读写效率, 还是软件内存溢出、空指针、程序加载异常等应用日志,无法直观分 析,且每次应用系统报错的根因也并不完全为同一个故障,对已知问 题故障还需要人工干预;缺乏故障快速修复机制,无法主动解决应用 问题:随着业务种类不断扩张,庞大而种类繁多的业务系统需要不间 断的提供运维服务,如有叠加的系统故障,各种告警瞬间达到峰值, 导致在故障修复的及时性以及操作的规范性大打折扣,甚至可能引发 业务问题的进一步恶化;缺乏日志异常类型的自动识别机制:运维工 程师们每天将要面对成千上万条日志数据,传统的运维人员基于人为 经验判定日志是否异常的方法以及简单的基于固定规则的日志异常 判定方法无法准确的识别异常日志,基于人工规则的方法经常会出现 错误性的误判,导致其他问题的出现,同时基于人工规则的判定体系, 需要投入大量的人力和物力维护成本。
发明内容
本发明提供一种基于文本分类的日志异常检测方法、系统、设备 及介质,用以解决现有技术中对于系统故障需人工干预以致故障无法 及时修复且耗时耗力的缺陷,实现快速的日志查询能力及丰富的日志 聚合视图,保障现有服务水平的条件下降低系统运维成本。
本发明提供一种基于文本分类的日志异常检测方法,包括:获取 日志数据,并对其进行预处理;将经预处理后的日志数据输入日志预 测模型组,所述日志预测模型组包括n项日志预测模型;其中,n为 大于1的整数;所述日志预测模型是基于错误日志和错误日志对应的 日志分类结果训练得到的;针对每个日志预测模型,基于所述经预处 理后的日志数据,得到预测结果;对n项日志预测模型输出的预测结 果进行投票融合,以输出预测日志分类结果。
根据本发明提供一种的基于文本分类的日志异常检测方法,所述 针对n项日志预测模型对应的预测结果进行投票融合,以输出预测日 志分类结果,包括:对n个预测结果分别进行标记,将预测结果为正 常的标记为1,预测结果为异常的标记为0;通过设定的投票方式, 对标记后的n个预测结果进行投票融合,得到预测日志分类结果。
根据本发明提供的一种基于文本分类的日志异常检测方法,所述 投票方式表示为:
其中,Y表示为投票结果,yi表示为第i个日志预测模型输出的 预测结果。
根据本发明提供的一种基于文本分类的日志异常检测方法,所述 日志预测模型组包括极端梯度提升xgboost模型、朴素贝叶斯模型和 临近算法KNN模型中的至少一项。
根据本发明提供的一种基于文本分类的日志异常检测方法,在所 述极端梯度提升xgboost模型中,决策树深度设置为5,学习率设置 为0.01,子树数量设置为500,子算法类型设置为二项式逻辑回归 binary:logistic模型,指算法模式设置为二叉查找树gbtree;
在所述朴素贝叶斯模型中,平滑区间设置为1e-09;
在所述临近算法KNN模型中,邻近个数设置为5,权重设置为 0.01,搜索算法设置为自动,距离计算公式采用欧式距离。
根据本发明提供的一种基于文本分类的日志异常检测方法,训练 所述日志预测模型,包括:对获取的错误日志进行标识,形成错误样 本标签,并基于所述错误样本标签构建样本标签库;将所述样本标签 库内的错误样本标签输入至所述日志预测模型,得到所述日志预测模 型输出的训练结果;将所述训练结果与真实结果进行对比,以判断是 否结束训练。
根据本发明提供的一种基于文本分类的日志异常检测方法,所述 获取日志数据,并对其进行预处理,包括:对所述日志数据进行清洗, 剔除所述日志数据中的异常数据;对剔除异常数据后的标识数据进行 文本分词;将文本分词结果转换为词向量矩阵。
本发明还提供一种基于文本分类的日志异常检测系统,包括:数 据处理模块,获取日志数据,并对其进行预处理;日志预测模型组模 块,将经预处理后的日志数据输入日志预测模型组模块,所述日志预 测模型组模块包括至少n项日志预测模型子模块;其中,n为大于1 的整数;所述日志预测模型子模块是基于错误日志和错误日志对应的 日志分类结果训练得到的;针对每个日志预测模型子模块,基于所述 经预处理后的日志数据,得到预测结果;投票模块,对n项日志预测 模型模块输出的预测结果进行投票融合,以输出预测日志分类结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储 器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时 实现如上述任一种所述基于文本分类的日志异常检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算 机程序,该计算机程序被处理器执行时实现如上述任一种所述基于文 本分类的日志异常检测方法的步骤。
本发明提供的基于文本分类的日志异常检测方法、系统、设备及 介质,通过n项日志预测模型分别对容器的日志数据进行预测,并对 n个预测结果进行投票融合,以提高预测结果的准确性,从而智能识 别应用日志异常点,实现应用模块异常检测,在复杂的应用容器间调 用关系逻辑中,快速定位出故障的应用节点,降低业务受影响的时长, 实现快速的日志查询能力及丰富的日志聚合视图,保障现有服务水平 的条件下降低系统运维成本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地, 下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员 来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
图1是本发明提供的基于文本分类的日志异常检测方法的流程 示意图之一;
图2是本发明提供的基于文本分类的日志异常检测方法的流程 示意图之二;
图3是本发明提供的基于文本分类的日志异常检测系统的结构 示意图;
图4是本发明提供的电子设备的结构示意图;
附图标记:
1:数据处理模; 2:日志预测模型组模块; 3:投票模块;
41:处理器; 42:通信接口; 43:存储器;
44:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发 明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明的一种基于文本分类的日志异常检测方法,参 考图1,该方法,包括:
S01,获取日志数据,并对其进行预处理;
S02,将经预处理后的日志数据输入日志预测模型组,日志预测 模型组包括至少n项日志预测模型;其中,n为大于1的整数;日志 预测模型是基于错误日志和错误日志对应的日志分类结果训练得到 的;针对每个日志预测模型,基于经预处理后的日志数据,得到预测 结果;
S03,对n项日志预测模型输出的预测结果进行投票融合,以输 出预测日志分类结果。
需要说明的是,本说明书中的S0N不代表基于文本分类的日志 异常检测方法的先后顺序,下面结合图2具体描述本发明的基于文本 分类的日志异常检测方法。
步骤S01,获取日志数据,并对其进行预处理。
本实施例中,获取日志数据,并对其进行预处理,包括:对日志 数据进行清洗,剔除日志数据中的异常数据;对剔除异常数据后的标 识数据进行文本分词;将文本分词结果转换为词向量矩阵。
具体而言,首先,对标识数据进行清洗,剔除标识数据中的异常 数据,使得标识数据中仅包含中文、英文和数字,从而去除日志数据 包含的大量异常字符,异常字符主要有“、”、*、/、空格,等等。
其次,对剔除异常数据后的标识数据进行文本分词,包括:利用 正则表达式抽取剔除异常数据后的标识数据的中文信息,并采用结巴 jieba分词工具对抽取的中文信息进行分词。需要说明的是,在正则 表达式中,U4e00表示第一个中文字符,U9fa5表示最后一个中文字 符,故可通过以上两个字符抽取出中文信息。另外,借助开源中文分 词工具jieba分词工具将文本数据划分为中文词组,通过空格进行区 分,jieba分词系统支持自定义词典,本实施例中,基于运维领域常 规业务知识,梳理出如下中文词典,以提升了分词准确率。其中梳理 中文词典部分包括:服务、总耗时、故障以及预警等。
最后,将文本分词结果转换为词向量矩阵,包括:利用字计数器 word-counter算法计算每条文本中各词出现的次数,得到词向量矩阵。 比如,文本分词结果分别为服务/总耗时/1000s、主机/服务器/内存/使 用/较高以及正在/预加载/文件,则利用字计数器word-counter算法计 算每条文本中各词出现的次数结果如下表:
应当注意,在获取日志数据之前,包括:定时采集原始日志数据, 对原始日志数据进行结构化处理并进行索引,得到第一数据;利用全 文搜索引擎Elasticsearch技术对滤出的日志数据进行结构化处理并按 照应用进行索引;采用两级标签方式对第一数据进行标识,得到日志 数据。
具体而言,采集原始日志数据,包括:利用数据收集器Fluentd 技术从容器环境中定时采集日志数据,采集的日志数据类型可以为 json类型和tcp数据类型等;基于预设的过滤规则filter对采集的日志 数据进行过滤,比如,将采集的日志数据格式化为json类型,并滤出 名称为日志的数据,并将滤出的数据输入至全文搜索引擎 Elasticsearch。
结构化处理包括:对滤出的日志数据进行倒排索引,以实现快速 索引。具体而言,倒排索引,包括:采用文本分词工具,比如结巴jieba, 对滤出的日志数据进行日志分词;为每个字段term创建文档ID,以 字节的方式存储所有term;基于每个term及其对应文档ID构建集合 posting list;根据索引关键字,比如字段值,记录其所出现的文档, 从而定位至整个文档。
另外,日志数据为第一数据标识出标签后的数据;标签可以为数 据库类、主机性能类以及缓存类等标签。
步骤S02,将经预处理后的日志数据输入日志预测模型组,日志 预测模型组包括至少n项日志预测模型;其中,n为大于1的整数; 日志预测模型是基于错误日志和错误日志对应的日志分类结果训练 得到的,针对每个日志预测模型,基于经预处理后的日志数据,得到 预测结果。需要说明的是,日志预测模型组包括极端梯度提升xgboost 模型、朴素贝叶斯模型和临近算法KNN模型中的至少一项。
具体而言,极端梯度提升xgboost算法,主要用于根因规则审核 自动化,其训练出的自动化标注模型既能融合专家经验,又能有效减 少人工标注成本。极端梯度提升xgboost模型是一种提升树模型,将 许多树模型集成在一起,形成一个较强的分类器,决策树深度设置为 5,学习率设置为0.01,子树数量设置为500,子算法类型设置为二 项式逻辑回归binary:logistic模型,指算法模式设置为二叉查找树 gbtree,由上述实施例可见,采用并行高效的树模型算法,可以通过 较少的样本数目得到较高的预测准确率,且xgboost支持多核并行的 特性使得相比传统串行的树模型性能提高2个数量级。
朴素贝叶斯模型,基于条件概率模型,对给定输入的日志数据, 利用贝叶斯定理求出后验概率分布,并基于极大似然估计原理将后验 概率最大的类作为类输出。参数区间不设置,平滑区间设置为1e-09。
最简单最初级的分类器是将全部的训练数据所对应的类别都记 录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可 以对其进行分类。但是在匹配时,无法使所有测试对象都找到与之完 全匹配的训练对象,且在匹配过程中存在一个测试对象同时与多个训 练对象匹配,导致一个训练对象被分到了多个类的问题,因此为了解 决上述问题,产生了临近算法KNN算法模型。
KNN算法模型是通过测量不同特征值之间的距离进行分类。主 要包括:计算日志数据在特征空间中的k个最相似(即特征空间中最 邻近)的样本;判断样本中同一类别的出现概率,并出现概率最大的 类别作为日志数据的类别。需要说明的是,K通常是不大于20的整 数;KNN算法中,所选择的邻居都是已经正确分类的对象。该方法 在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分 样本所属的类别。本实施例的KNN算法模型中,邻近个数设置为5, 权重设置为0.01,搜索算法设置为自动,距离计算公式采用欧式距离。
在一个可选的实施例中,该基于文本分类的日志异常检测方法还 可以包括:
日志预测模型组包括极端梯度提升xgboost模型、朴素贝叶斯模 型和临近算法KNN算法模型,针对每个日志预测模型,基于经预处 理后的日志数据,分别得到xgboost模型输出的第一预测结果、朴素 贝叶斯模型输出的第二预测结果和KNN算法模型输出的第三预测结 果;基于第一预测结果、第二预测结果和第三预测结果进行投票融合, 以输出日志分类预测结果。
在一个可选的实施例中,该基于文本分类的日志异常检测方法还 可以包括如下步骤:
训练日志预测模型,包括:对获取的错误日志进行标识,形成错 误样本标签,并基于错误样本标签构建样本标签库;将样本标签库内 的错误样本标签输入至日志预测模型,得到日志预测模型输出的训练 结果;将训练结果与真实结果进行对比,以判断是否结束训练。
需要说明的是,在构建样本标签库之后,错误样本标签进行预处 理,预处理方式可参照前文日志数据的预处理方式,此处不再赘述。
随后,构建并训练日志预测模型模型。
当采用xgboost模型时,为使xgboost算法优化传统GBDT算法, 先构造一种目标函数,表示为:
再利用泰勒展开式近似目标,表示为:
基于上述目标函数和泰勒展开式近似目标得到xgboost模型,表 示为:
其中,l表示为平方损失函数,其中,Ω(ft) 表示为正则项,包括L1正则或L2正则;对于f(x),gboost算法利用 泰勒展开式做一种近似,以清晰得出,最终目标函数只依赖于每个数 据点在误差函数上的一阶导数和二阶导数;yi表示为第i个数据的真 实标签,xi表示为第i个数据,表示为第t-1棵子决策树的预测 标签。
通过将错误样本标签输入xgboost模型中,得到训练结果,并将 训练结果与真实结果进行对比,以不断优化Obj函数,从而实现利用 xgboost模型对日志数据进行预测,得到其对应的预测结果。
当采用朴素贝叶斯模型时,基于条件概率模型,对给定输入的错 误样本标签X,利用贝叶斯定理求出后验概率分布P(Y=ck|X=x);基 于极大似然估计原理,将后验概率最大的类作为x类输出,其中,朴 素贝叶斯分类器表示为:
其中,y表示为模型输出的训练结果;ck表示为第k个数据的类 别;xj为第j个特征。
通过将错误样本标签输入朴素贝叶斯模型中,以输出训练结果, 并将训练结果与真实结果进行对比,以不断优化朴素贝叶斯分类器, 以实现利用朴素贝叶斯模型对日志数据进行预测,得到其对应的预测 结果。
当采用KNN算法模型时,主要包括:计算错误样本标签在特征 空间中的k个最相似(即特征空间中最邻近)的样本;判断样本中同一 类别的出现概率,并出现概率最大的类别作为日志数据的类别。需要 说明的是,K通常是不大于20的整数;KNN算法中,所选择的邻居都是已经正确分类的对象;利用欧式距离计算公式计算错误样本标签 的k个最相似(即特征空间中最邻近)的样本,欧式距离计算公式为:
其中,xk表示为输入的错误样本标签;yk表示为临近于错误样本 标签样本标签。
通过欧式距离计算公式,预设计算精度,使得实际计算精度小于 预设计算精度时,停止训练。
步骤S03,对n项日志预测模型输出的预测结果进行投票融合, 以输出预测日志分类结果。
针对n项日志预测模型对应的预测结果进行投票融合,以输出预 测日志分类结果,包括:对n个预测结果分别进行标记,将预测结果 为正常的标记为1,预测结果为异常的标记为0;通过设定的投票方 式,对标记后的n个预测结果进行投票融合,得到预测日志分类结果。
其中,投票方式表示为:
其中,Y表示为投票结果,yi表示为第i个日志预测模型输出的 预测结果。
当n项日志模型预测模型输出的预测结果之和大于2时,将投票 结果记为1,即预测日志分类结果为正常;否则,为异常。
综上所述,本发明通过n项日志预测模型分别对容器的日志数据 进行预测,并对n个预测结果进行投票融合,以提高预测结果的准确 性,从而智能识别应用日志异常点,实现应用模块异常检测,在复杂 的应用容器间调用关系逻辑中,快速定位出故障的应用节点,降低业 务受影响的时长,实现快速的日志查询能力及丰富的日志聚合视图, 保障现有服务水平的条件下降低系统运维成本。
下面对本发明提供的基于文本分类的日志异常检测系统进行描 述,下文描述的基于文本分类的日志异常检测系统与上文描述的基于 文本分类的日志异常检测方法可相互对应参照。
参考图3,图3示出了一种基于文本分类的日志异常检测系统, 包括:
数据处理模块1获取日志数据,并对其进行预处理;
日志预测模型组模块2,将经预处理后的日志数据输入日志预测 模型组模块,日志预测模型组模块包括至少n项日志预测模型子模块; 其中,n为大于1的整数;日志预测模型子模块是基于错误日志和错 误日志对应的日志分类结果训练得到的,针对每个日志预测模型子模 块,基于经预处理后的日志数据,得到预测结果;
投票模块3,对n项日志预测模型模块输出的预测结果进行投票 融合,以输出预测日志分类结果。
本实施例中,数据处理模块1包括:清洗单元,对日志数据进行 清洗,剔除日志数据中的异常数据;分词单元,对剔除异常数据后的 标识数据进行文本分词;词向量转换单元,将文本分词结果转换为词 向量矩阵。
日志预测模型组模块2包括n项日志预测模型子模块,针对每个 日志预测模型子模块,基于所述经预处理后的日志数据,得到预测结 果。
投票模块3包括:标记单元,对n个预测结果分别进行标记,将 预测结果为正常的标记为1,预测结果为异常的标记为0;投票单元, 通过设定的投票方式,对标记后的n个预测结果进行投票融合,得到 预测日志分类结果。
图4例了一种电子设备的实体结构示意图,如图4示,该电子设 备可以包括:处理器(processor)41、通信接口(Communications Interface)42、存储器(memory)43和通信总线44,其中,处理器41, 通信接口42,存储器43通过通信总线44完成相互间的通信。处理 器41可以调用存储器43中的逻辑指令,以执行基于文本分类的日志 异常检测方法,该方法包括:获取日志数据,并对其进行预处理;将 经预处理后的日志数据输入日志预测模型组,日志预测模型组包括至 少n项日志预测模型;其中,n为大于1的整数;日志预测模型是基 于错误日志和错误日志对应的日志分类结果训练得到的;针对每个日 志预测模型,基于经预处理后的日志数据,得到预测结果;对n项日 志预测模型输出的预测结果进行投票融合,以输出预测日志分类结果。
此外,上述的存储器43中的逻辑指令可以通过软件功能单元的 形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可 读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说 对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品 的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若 干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者 网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而 前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟 或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序 产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计 算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能 够执行上述各方法所提供的基于文本分类的日志异常检测方法,该方 法包括:获取日志数据,并对其进行预处理;将经预处理后的日志数 据输入日志预测模型组,日志预测模型组包括至少n项日志预测模型; 其中,n为大于1的整数;日志预测模型是基于错误日志和错误日志 对应的日志分类结果训练得到的;针对每个日志预测模型,基于经预 处理后的日志数据,得到预测结果;对n项日志预测模型输出的预测结果进行投票融合,以输出预测日志分类结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上 存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各 提供的基于文本分类的日志异常检测方法,该方法包括:获取日志数 据,并对其进行预处理;将经预处理后的日志数据输入日志预测模型 组,日志预测模型组包括至少n项日志预测模型;其中,n为大于1 的整数;日志预测模型是基于错误日志和错误日志对应的日志分类结 果训练得到的;针对每个日志预测模型,基于经预处理后的日志数据, 得到预测结果;对n项日志预测模型输出的预测结果进行投票融合, 以输出预测日志分类结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部 件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也 可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付 出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然 也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光 盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所 述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。
Claims (10)
1.一种基于文本分类的日志异常检测方法,其特征在于,包括:
获取日志数据,并对其进行预处理;
将经预处理后的日志数据输入日志预测模型组,所述日志预测模型组包括n项日志预测模型;其中,n为大于1的整数;所述日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的;
针对每个日志预测模型,基于所述经预处理后的日志数据,得到预测结果;
对n项日志预测模型输出的预测结果进行投票融合,以输出预测日志分类结果。
2.根据权利要求1所述的基于文本分类的日志异常检测方法,其特征在于,所述针对n项日志预测模型对应的预测结果进行投票融合,以输出预测日志分类结果,包括:
对n个预测结果分别进行标记,将预测结果为正常的标记为1,预测结果为异常的标记为0;
通过设定的投票方式,对标记后的n个预测结果进行投票融合,得到预测日志分类结果。
4.根据权利要求1所述的基于文本分类的日志异常检测方法,其特征在于,所述日志预测模型组包括极端梯度提升xgboost模型、朴素贝叶斯模型和临近算法KNN模型中的至少一项。
5.根据权利要求4所述的基于文本分类的日志异常检测方法,其特征在于,在所述极端梯度提升xgboost模型中,决策树深度设置为5,学习率设置为0.01,子树数量设置为500,子算法类型设置为二项式逻辑回归binary:logistic模型,指算法模式设置为二叉查找树gbtree;
在所述朴素贝叶斯模型中,平滑区间设置为1e-09;
在所述临近算法KNN模型中,邻近个数设置为5,权重设置为0.01,搜索算法设置为自动,距离计算公式采用欧式距离。
6.根据权利要求1所述的基于文本分类的日志异常检测方法,其特征在于,训练所述日志预测模型,包括:
对获取的错误日志进行标识,形成错误样本标签,并基于所述错误样本标签构建样本标签库;
将所述样本标签库内的错误样本标签输入至所述日志预测模型,得到所述日志预测模型输出的训练结果;
将所述训练结果与真实结果进行对比,以判断是否结束训练。
7.根据权利要求1所述的基于文本分类的日志异常检测方法,其特征在于,所述获取日志数据,并对其进行预处理,包括:
对所述日志数据进行清洗,剔除所述日志数据中的异常数据;
对剔除异常数据后的标识数据进行文本分词;
将文本分词结果转换为词向量矩阵。
8.一种基于文本分类的日志异常检测系统,其特征在于,包括:
数据处理模块,获取日志数据,并对其进行预处理;
日志预测模型组模块,将经预处理后的日志数据输入日志预测模型组模块,所述日志预测模型组模块包括至少n项日志预测模型子模块;其中,n为大于1的整数;所述日志预测模型子模块是基于错误日志和错误日志对应的日志分类结果训练得到的;针对每个日志预测模型子模块,基于所述经预处理后的日志数据,得到预测结果;
投票模块,对n项日志预测模型模块输出的预测结果进行投票融合,以输出预测日志分类结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于文本分类的日志异常检测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于文本分类的日志异常检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110858509.XA CN113657461A (zh) | 2021-07-28 | 2021-07-28 | 基于文本分类的日志异常检测方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110858509.XA CN113657461A (zh) | 2021-07-28 | 2021-07-28 | 基于文本分类的日志异常检测方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113657461A true CN113657461A (zh) | 2021-11-16 |
Family
ID=78478879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110858509.XA Pending CN113657461A (zh) | 2021-07-28 | 2021-07-28 | 基于文本分类的日志异常检测方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657461A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114024839A (zh) * | 2022-01-06 | 2022-02-08 | 深圳市明源云科技有限公司 | 服务器日志消息分类方法、装置、设备及可读存储介质 |
CN114389834A (zh) * | 2021-11-26 | 2022-04-22 | 浪潮通信信息系统有限公司 | 一种api网关异常调用识别的方法、装置、设备及产品 |
CN114697108A (zh) * | 2022-03-29 | 2022-07-01 | 山东省计算中心(国家超级计算济南中心) | 基于集成学习的系统日志异常检测方法 |
CN115065597A (zh) * | 2022-06-14 | 2022-09-16 | 中国电信股份有限公司 | 一种容器资源配置方法、装置、介质和设备 |
CN115270125A (zh) * | 2022-08-11 | 2022-11-01 | 江苏安超云软件有限公司 | Ids日志分类预测方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050119885A1 (en) * | 2003-11-28 | 2005-06-02 | Axelrod Scott E. | Speech recognition utilizing multitude of speech features |
CN105654945A (zh) * | 2015-10-29 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语言模型的训练方法及装置、设备 |
CN109635997A (zh) * | 2018-11-02 | 2019-04-16 | 广州裕申电子科技有限公司 | 一种设备维护保养时机的预测方法和系统 |
CN109767351A (zh) * | 2018-12-24 | 2019-05-17 | 国网山西省电力公司信息通信分公司 | 一种电力信息系统日志数据的安全态势感知方法 |
CN111045847A (zh) * | 2019-12-18 | 2020-04-21 | Oppo广东移动通信有限公司 | 事件审计方法、装置、终端设备以及存储介质 |
CN111881983A (zh) * | 2020-07-30 | 2020-11-03 | 平安科技(深圳)有限公司 | 基于分类模型的数据处理方法、装置、电子设备及介质 |
CN112182373A (zh) * | 2020-09-25 | 2021-01-05 | 中国人民大学 | 一种基于上下文表示学习的性化搜索方法 |
CN112256517A (zh) * | 2020-08-28 | 2021-01-22 | 苏州浪潮智能科技有限公司 | 基于lstm-dssm的虚拟化平台的日志分析方法及装置 |
CN112631888A (zh) * | 2020-12-30 | 2021-04-09 | 航天信息股份有限公司 | 分布式系统的故障预测方法、装置、存储介质及电子设备 |
-
2021
- 2021-07-28 CN CN202110858509.XA patent/CN113657461A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050119885A1 (en) * | 2003-11-28 | 2005-06-02 | Axelrod Scott E. | Speech recognition utilizing multitude of speech features |
CN105654945A (zh) * | 2015-10-29 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语言模型的训练方法及装置、设备 |
CN109635997A (zh) * | 2018-11-02 | 2019-04-16 | 广州裕申电子科技有限公司 | 一种设备维护保养时机的预测方法和系统 |
CN109767351A (zh) * | 2018-12-24 | 2019-05-17 | 国网山西省电力公司信息通信分公司 | 一种电力信息系统日志数据的安全态势感知方法 |
CN111045847A (zh) * | 2019-12-18 | 2020-04-21 | Oppo广东移动通信有限公司 | 事件审计方法、装置、终端设备以及存储介质 |
CN111881983A (zh) * | 2020-07-30 | 2020-11-03 | 平安科技(深圳)有限公司 | 基于分类模型的数据处理方法、装置、电子设备及介质 |
CN112256517A (zh) * | 2020-08-28 | 2021-01-22 | 苏州浪潮智能科技有限公司 | 基于lstm-dssm的虚拟化平台的日志分析方法及装置 |
CN112182373A (zh) * | 2020-09-25 | 2021-01-05 | 中国人民大学 | 一种基于上下文表示学习的性化搜索方法 |
CN112631888A (zh) * | 2020-12-30 | 2021-04-09 | 航天信息股份有限公司 | 分布式系统的故障预测方法、装置、存储介质及电子设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114389834A (zh) * | 2021-11-26 | 2022-04-22 | 浪潮通信信息系统有限公司 | 一种api网关异常调用识别的方法、装置、设备及产品 |
CN114389834B (zh) * | 2021-11-26 | 2024-04-30 | 浪潮通信信息系统有限公司 | 一种api网关异常调用识别的方法、装置、设备及产品 |
CN114024839A (zh) * | 2022-01-06 | 2022-02-08 | 深圳市明源云科技有限公司 | 服务器日志消息分类方法、装置、设备及可读存储介质 |
CN114024839B (zh) * | 2022-01-06 | 2022-04-08 | 深圳市明源云科技有限公司 | 服务器日志消息分类方法、装置、设备及可读存储介质 |
CN114697108A (zh) * | 2022-03-29 | 2022-07-01 | 山东省计算中心(国家超级计算济南中心) | 基于集成学习的系统日志异常检测方法 |
CN115065597A (zh) * | 2022-06-14 | 2022-09-16 | 中国电信股份有限公司 | 一种容器资源配置方法、装置、介质和设备 |
CN115270125A (zh) * | 2022-08-11 | 2022-11-01 | 江苏安超云软件有限公司 | Ids日志分类预测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657461A (zh) | 基于文本分类的日志异常检测方法、系统、设备及介质 | |
CN108427720B (zh) | 系统日志分类方法 | |
US10089581B2 (en) | Data driven classification and data quality checking system | |
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
US20190026964A1 (en) | Analytics system for aircraft line-replaceable unit (lru) maintenance optimization | |
US9270749B2 (en) | Leveraging social media to assist in troubleshooting | |
CN111143840B (zh) | 一种主机操作指令异常识别的方法及系统 | |
US10083403B2 (en) | Data driven classification and data quality checking method | |
KR20180054992A (ko) | 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법 | |
CN115062148B (zh) | 一种基于数据库的风险控制方法 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN113590396A (zh) | 一次设备的缺陷诊断方法、系统、电子设备及存储介质 | |
CN111694957B (zh) | 基于图神经网络的问题单分类方法、设备及存储介质 | |
KR20210001625A (ko) | 뉴스 기사의 감성 정보 레이블링에 기초한 기업 부실 정보 서비스 제공 방법 및 그 장치 | |
KR20210001649A (ko) | 기업 부실 예측 프로그램 | |
CN113591480B (zh) | 电力计量的命名实体识别方法、装置和计算机设备 | |
US20220050884A1 (en) | Utilizing machine learning models to automatically generate a summary or visualization of data | |
CN110738054B (zh) | 识别邮件中酒店信息的方法、系统、电子设备及存储介质 | |
KR20210001707A (ko) | 뉴스 기사의 감성 정보 레이블링에 기초한 기업 부실 정보 서비스 제공 장치 | |
KR20210001693A (ko) | 뉴스 기사 레이블링 기반 기업 부실 예측 정보 서비스 제공 프로그램 기록매체 | |
KR20210001645A (ko) | 기업 부실 예측 방법 | |
CN109614489A (zh) | 一种基于迁移学习和特征提取的Bug报告严重程度识别方法 | |
CN110807082A (zh) | 质量抽检项目确定方法、系统、电子设备及可读存储介质 | |
CN117708759B (zh) | 定位企业所属产业链环节的方法及装置 | |
CN116071558A (zh) | 一种处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |