CN113657461A

CN113657461A - 基于文本分类的日志异常检测方法、系统、设备及介质

Info

Publication number: CN113657461A
Application number: CN202110858509.XA
Authority: CN
Inventors: 易存道
Original assignee: Beijing Baolande Software Co ltd
Current assignee: Beijing Baolande Software Co ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-16

Abstract

本发明提供一种基于文本分类的日志异常检测方法、系统、设备及介质，方法包括：获取日志数据，并对其进行预处理；将经预处理后的日志数据输入日志预测模型组，日志预测模型组包括至少n项日志预测模型；其中，n为大于1的整数；日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的；针对每个日志预测模型，基于经预处理后的日志数据，得到预测结果；对n项日志预测模型输出的预测结果进行投票融合，以输出预测日志分类结果。本发明通过n项日志预测模型分别对容器的日志数据进行预测，并对n个预测结果进行投票融合，以提高预测结果的准确性，从而智能识别应用日志异常点，保障现有服务水平的条件下降低系统运维成本。

Description

基于文本分类的日志异常检测方法、系统、设备及介质

技术领域

本发明涉及计算机技术运维技术领域，尤其涉及一种基于文本分类的日志异常检测方法、系统、设备及介质。

背景技术

随着电信行业环境的深刻变化，系统容器化越来越普及，自动扩缩容的容器级日志不断增加和变化，造成故障定位设计的问题种类繁多，成本管控能力将成为企业核心竞争力的重要组成部分，容量日志也引起企业越来越大的重视。

传统的日志分析是直接采集日志，并通过人为观察日志当中是否存在异常关键字，基于关键字对日志简单分类。在实际生产过程当中，企业IT系统将生成大量日志，存在人为漏判的可能。其次人为根据经验及关键字在判断异常日志的过程当中，准确率无法保证。当大批量业务请求冲击时，现有的IT系统应用日志充斥大量低级告警数据，信息冗余度高，语义级别低，无法直观展示问题的信息点，主要体现在如下问题：

缺乏日志自动分析能力，无法深入挖掘问题根因：运维监控人员提供日志聚合视图，无论是硬件线程过载、内存不足、IO读写效率，还是软件内存溢出、空指针、程序加载异常等应用日志，无法直观分析，且每次应用系统报错的根因也并不完全为同一个故障，对已知问题故障还需要人工干预；缺乏故障快速修复机制，无法主动解决应用问题：随着业务种类不断扩张，庞大而种类繁多的业务系统需要不间断的提供运维服务，如有叠加的系统故障，各种告警瞬间达到峰值，导致在故障修复的及时性以及操作的规范性大打折扣，甚至可能引发业务问题的进一步恶化；缺乏日志异常类型的自动识别机制：运维工程师们每天将要面对成千上万条日志数据，传统的运维人员基于人为经验判定日志是否异常的方法以及简单的基于固定规则的日志异常判定方法无法准确的识别异常日志，基于人工规则的方法经常会出现错误性的误判，导致其他问题的出现，同时基于人工规则的判定体系，需要投入大量的人力和物力维护成本。

发明内容

本发明提供一种基于文本分类的日志异常检测方法、系统、设备及介质，用以解决现有技术中对于系统故障需人工干预以致故障无法及时修复且耗时耗力的缺陷，实现快速的日志查询能力及丰富的日志聚合视图，保障现有服务水平的条件下降低系统运维成本。

本发明提供一种基于文本分类的日志异常检测方法，包括：获取日志数据，并对其进行预处理；将经预处理后的日志数据输入日志预测模型组，所述日志预测模型组包括n项日志预测模型；其中，n为大于1的整数；所述日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的；针对每个日志预测模型，基于所述经预处理后的日志数据，得到预测结果；对n项日志预测模型输出的预测结果进行投票融合，以输出预测日志分类结果。

根据本发明提供一种的基于文本分类的日志异常检测方法，所述针对n项日志预测模型对应的预测结果进行投票融合，以输出预测日志分类结果，包括：对n个预测结果分别进行标记，将预测结果为正常的标记为1，预测结果为异常的标记为0；通过设定的投票方式，对标记后的n个预测结果进行投票融合，得到预测日志分类结果。

根据本发明提供的一种基于文本分类的日志异常检测方法，所述投票方式表示为：

其中，Y表示为投票结果，y_i表示为第i个日志预测模型输出的预测结果。

根据本发明提供的一种基于文本分类的日志异常检测方法，所述日志预测模型组包括极端梯度提升xgboost模型、朴素贝叶斯模型和临近算法KNN模型中的至少一项。

根据本发明提供的一种基于文本分类的日志异常检测方法，在所述极端梯度提升xgboost模型中，决策树深度设置为5，学习率设置为0.01，子树数量设置为500，子算法类型设置为二项式逻辑回归 binary:logistic模型，指算法模式设置为二叉查找树gbtree；

在所述朴素贝叶斯模型中，平滑区间设置为1e-09；

在所述临近算法KNN模型中，邻近个数设置为5，权重设置为 0.01，搜索算法设置为自动，距离计算公式采用欧式距离。

根据本发明提供的一种基于文本分类的日志异常检测方法，训练所述日志预测模型，包括：对获取的错误日志进行标识，形成错误样本标签，并基于所述错误样本标签构建样本标签库；将所述样本标签库内的错误样本标签输入至所述日志预测模型，得到所述日志预测模型输出的训练结果；将所述训练结果与真实结果进行对比，以判断是否结束训练。

根据本发明提供的一种基于文本分类的日志异常检测方法，所述获取日志数据，并对其进行预处理，包括：对所述日志数据进行清洗，剔除所述日志数据中的异常数据；对剔除异常数据后的标识数据进行文本分词；将文本分词结果转换为词向量矩阵。

本发明还提供一种基于文本分类的日志异常检测系统，包括：数据处理模块，获取日志数据，并对其进行预处理；日志预测模型组模块，将经预处理后的日志数据输入日志预测模型组模块，所述日志预测模型组模块包括至少n项日志预测模型子模块；其中，n为大于1 的整数；所述日志预测模型子模块是基于错误日志和错误日志对应的日志分类结果训练得到的；针对每个日志预测模型子模块，基于所述经预处理后的日志数据，得到预测结果；投票模块，对n项日志预测模型模块输出的预测结果进行投票融合，以输出预测日志分类结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于文本分类的日志异常检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于文本分类的日志异常检测方法的步骤。

本发明提供的基于文本分类的日志异常检测方法、系统、设备及介质，通过n项日志预测模型分别对容器的日志数据进行预测，并对 n个预测结果进行投票融合，以提高预测结果的准确性，从而智能识别应用日志异常点，实现应用模块异常检测，在复杂的应用容器间调用关系逻辑中，快速定位出故障的应用节点，降低业务受影响的时长，实现快速的日志查询能力及丰富的日志聚合视图，保障现有服务水平的条件下降低系统运维成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于文本分类的日志异常检测方法的流程示意图之一；

图2是本发明提供的基于文本分类的日志异常检测方法的流程示意图之二；

图3是本发明提供的基于文本分类的日志异常检测系统的结构示意图；

图4是本发明提供的电子设备的结构示意图；

附图标记：

1：数据处理模； 2：日志预测模型组模块； 3：投票模块；

41：处理器； 42：通信接口； 43：存储器；

44：通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明的一种基于文本分类的日志异常检测方法，参考图1，该方法，包括：

S01，获取日志数据，并对其进行预处理；

S02，将经预处理后的日志数据输入日志预测模型组，日志预测模型组包括至少n项日志预测模型；其中，n为大于1的整数；日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的；针对每个日志预测模型，基于经预处理后的日志数据，得到预测结果；

S03，对n项日志预测模型输出的预测结果进行投票融合，以输出预测日志分类结果。

需要说明的是，本说明书中的S0N不代表基于文本分类的日志异常检测方法的先后顺序，下面结合图2具体描述本发明的基于文本分类的日志异常检测方法。

步骤S01，获取日志数据，并对其进行预处理。

本实施例中，获取日志数据，并对其进行预处理，包括：对日志数据进行清洗，剔除日志数据中的异常数据；对剔除异常数据后的标识数据进行文本分词；将文本分词结果转换为词向量矩阵。

具体而言，首先，对标识数据进行清洗，剔除标识数据中的异常数据，使得标识数据中仅包含中文、英文和数字，从而去除日志数据包含的大量异常字符，异常字符主要有“、”、*、/、空格，等等。

其次，对剔除异常数据后的标识数据进行文本分词，包括：利用正则表达式抽取剔除异常数据后的标识数据的中文信息，并采用结巴 jieba分词工具对抽取的中文信息进行分词。需要说明的是，在正则表达式中，U4e00表示第一个中文字符，U9fa5表示最后一个中文字符，故可通过以上两个字符抽取出中文信息。另外，借助开源中文分词工具jieba分词工具将文本数据划分为中文词组，通过空格进行区分，jieba分词系统支持自定义词典，本实施例中，基于运维领域常规业务知识，梳理出如下中文词典，以提升了分词准确率。其中梳理中文词典部分包括：服务、总耗时、故障以及预警等。

最后，将文本分词结果转换为词向量矩阵，包括：利用字计数器 word-counter算法计算每条文本中各词出现的次数，得到词向量矩阵。比如，文本分词结果分别为服务/总耗时/1000s、主机/服务器/内存/使用/较高以及正在/预加载/文件，则利用字计数器word-counter算法计算每条文本中各词出现的次数结果如下表：

应当注意，在获取日志数据之前，包括：定时采集原始日志数据，对原始日志数据进行结构化处理并进行索引，得到第一数据；利用全文搜索引擎Elasticsearch技术对滤出的日志数据进行结构化处理并按照应用进行索引；采用两级标签方式对第一数据进行标识，得到日志数据。

具体而言，采集原始日志数据，包括：利用数据收集器Fluentd 技术从容器环境中定时采集日志数据，采集的日志数据类型可以为 json类型和tcp数据类型等；基于预设的过滤规则filter对采集的日志数据进行过滤，比如，将采集的日志数据格式化为json类型，并滤出名称为日志的数据，并将滤出的数据输入至全文搜索引擎 Elasticsearch。

结构化处理包括：对滤出的日志数据进行倒排索引，以实现快速索引。具体而言，倒排索引，包括：采用文本分词工具，比如结巴jieba，对滤出的日志数据进行日志分词；为每个字段term创建文档ID，以字节的方式存储所有term；基于每个term及其对应文档ID构建集合 posting list；根据索引关键字，比如字段值，记录其所出现的文档，从而定位至整个文档。

另外，日志数据为第一数据标识出标签后的数据；标签可以为数据库类、主机性能类以及缓存类等标签。

步骤S02，将经预处理后的日志数据输入日志预测模型组，日志预测模型组包括至少n项日志预测模型；其中，n为大于1的整数；日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的，针对每个日志预测模型，基于经预处理后的日志数据，得到预测结果。需要说明的是，日志预测模型组包括极端梯度提升xgboost 模型、朴素贝叶斯模型和临近算法KNN模型中的至少一项。

具体而言，极端梯度提升xgboost算法，主要用于根因规则审核自动化，其训练出的自动化标注模型既能融合专家经验，又能有效减少人工标注成本。极端梯度提升xgboost模型是一种提升树模型，将许多树模型集成在一起，形成一个较强的分类器，决策树深度设置为 5，学习率设置为0.01，子树数量设置为500，子算法类型设置为二项式逻辑回归binary:logistic模型，指算法模式设置为二叉查找树 gbtree，由上述实施例可见，采用并行高效的树模型算法，可以通过较少的样本数目得到较高的预测准确率，且xgboost支持多核并行的特性使得相比传统串行的树模型性能提高2个数量级。

朴素贝叶斯模型，基于条件概率模型，对给定输入的日志数据，利用贝叶斯定理求出后验概率分布，并基于极大似然估计原理将后验概率最大的类作为类输出。参数区间不设置，平滑区间设置为1e-09。

最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来，当测试对象的属性和某个训练对象的属性完全匹配时，便可以对其进行分类。但是在匹配时，无法使所有测试对象都找到与之完全匹配的训练对象，且在匹配过程中存在一个测试对象同时与多个训练对象匹配，导致一个训练对象被分到了多个类的问题，因此为了解决上述问题，产生了临近算法KNN算法模型。

KNN算法模型是通过测量不同特征值之间的距离进行分类。主要包括：计算日志数据在特征空间中的k个最相似(即特征空间中最邻近)的样本；判断样本中同一类别的出现概率，并出现概率最大的类别作为日志数据的类别。需要说明的是，K通常是不大于20的整数；KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。本实施例的KNN算法模型中，邻近个数设置为5，权重设置为0.01，搜索算法设置为自动，距离计算公式采用欧式距离。

在一个可选的实施例中，该基于文本分类的日志异常检测方法还可以包括：

日志预测模型组包括极端梯度提升xgboost模型、朴素贝叶斯模型和临近算法KNN算法模型，针对每个日志预测模型，基于经预处理后的日志数据，分别得到xgboost模型输出的第一预测结果、朴素贝叶斯模型输出的第二预测结果和KNN算法模型输出的第三预测结果；基于第一预测结果、第二预测结果和第三预测结果进行投票融合，以输出日志分类预测结果。

在一个可选的实施例中，该基于文本分类的日志异常检测方法还可以包括如下步骤：

训练日志预测模型，包括：对获取的错误日志进行标识，形成错误样本标签，并基于错误样本标签构建样本标签库；将样本标签库内的错误样本标签输入至日志预测模型，得到日志预测模型输出的训练结果；将训练结果与真实结果进行对比，以判断是否结束训练。

需要说明的是，在构建样本标签库之后，错误样本标签进行预处理，预处理方式可参照前文日志数据的预处理方式，此处不再赘述。

随后，构建并训练日志预测模型模型。

当采用xgboost模型时，为使xgboost算法优化传统GBDT算法，先构造一种目标函数，表示为：

再利用泰勒展开式近似目标，表示为：

基于上述目标函数和泰勒展开式近似目标得到xgboost模型，表示为：

其中，l表示为平方损失函数，其中，

Ω(f_t) 表示为正则项，包括L1正则或L2正则；对于f(x)，gboost算法利用泰勒展开式做一种近似，以清晰得出，最终目标函数只依赖于每个数据点在误差函数上的一阶导数和二阶导数；y_i表示为第i个数据的真实标签，x_i表示为第i个数据，

表示为第t-1棵子决策树的预测标签。

通过将错误样本标签输入xgboost模型中，得到训练结果，并将训练结果与真实结果进行对比，以不断优化Obj函数，从而实现利用 xgboost模型对日志数据进行预测，得到其对应的预测结果。

当采用朴素贝叶斯模型时，基于条件概率模型，对给定输入的错误样本标签X，利用贝叶斯定理求出后验概率分布P(Y＝c_k|X＝x)；基于极大似然估计原理，将后验概率最大的类作为x类输出，其中，朴素贝叶斯分类器表示为：

其中，y表示为模型输出的训练结果；c_k表示为第k个数据的类别；x^j为第j个特征。

通过将错误样本标签输入朴素贝叶斯模型中，以输出训练结果，并将训练结果与真实结果进行对比，以不断优化朴素贝叶斯分类器，以实现利用朴素贝叶斯模型对日志数据进行预测，得到其对应的预测结果。

当采用KNN算法模型时，主要包括：计算错误样本标签在特征空间中的k个最相似(即特征空间中最邻近)的样本；判断样本中同一类别的出现概率，并出现概率最大的类别作为日志数据的类别。需要说明的是，K通常是不大于20的整数；KNN算法中，所选择的邻居都是已经正确分类的对象；利用欧式距离计算公式计算错误样本标签的k个最相似(即特征空间中最邻近)的样本，欧式距离计算公式为：

其中，x_k表示为输入的错误样本标签；y_k表示为临近于错误样本标签样本标签。

通过欧式距离计算公式，预设计算精度，使得实际计算精度小于预设计算精度时，停止训练。

步骤S03，对n项日志预测模型输出的预测结果进行投票融合，以输出预测日志分类结果。

针对n项日志预测模型对应的预测结果进行投票融合，以输出预测日志分类结果，包括：对n个预测结果分别进行标记，将预测结果为正常的标记为1，预测结果为异常的标记为0；通过设定的投票方式，对标记后的n个预测结果进行投票融合，得到预测日志分类结果。

其中，投票方式表示为：

当n项日志模型预测模型输出的预测结果之和大于2时，将投票结果记为1，即预测日志分类结果为正常；否则，为异常。

综上所述，本发明通过n项日志预测模型分别对容器的日志数据进行预测，并对n个预测结果进行投票融合，以提高预测结果的准确性，从而智能识别应用日志异常点，实现应用模块异常检测，在复杂的应用容器间调用关系逻辑中，快速定位出故障的应用节点，降低业务受影响的时长，实现快速的日志查询能力及丰富的日志聚合视图，保障现有服务水平的条件下降低系统运维成本。

下面对本发明提供的基于文本分类的日志异常检测系统进行描述，下文描述的基于文本分类的日志异常检测系统与上文描述的基于文本分类的日志异常检测方法可相互对应参照。

参考图3，图3示出了一种基于文本分类的日志异常检测系统，包括：

数据处理模块1获取日志数据，并对其进行预处理；

日志预测模型组模块2，将经预处理后的日志数据输入日志预测模型组模块，日志预测模型组模块包括至少n项日志预测模型子模块；其中，n为大于1的整数；日志预测模型子模块是基于错误日志和错误日志对应的日志分类结果训练得到的，针对每个日志预测模型子模块，基于经预处理后的日志数据，得到预测结果；

投票模块3，对n项日志预测模型模块输出的预测结果进行投票融合，以输出预测日志分类结果。

本实施例中，数据处理模块1包括：清洗单元，对日志数据进行清洗，剔除日志数据中的异常数据；分词单元，对剔除异常数据后的标识数据进行文本分词；词向量转换单元，将文本分词结果转换为词向量矩阵。

日志预测模型组模块2包括n项日志预测模型子模块，针对每个日志预测模型子模块，基于所述经预处理后的日志数据，得到预测结果。

投票模块3包括：标记单元，对n个预测结果分别进行标记，将预测结果为正常的标记为1，预测结果为异常的标记为0；投票单元，通过设定的投票方式，对标记后的n个预测结果进行投票融合，得到预测日志分类结果。

图4例了一种电子设备的实体结构示意图，如图4示，该电子设备可以包括：处理器(processor)41、通信接口(Communications Interface)42、存储器(memory)43和通信总线44，其中，处理器41，通信接口42，存储器43通过通信总线44完成相互间的通信。处理器41可以调用存储器43中的逻辑指令，以执行基于文本分类的日志异常检测方法，该方法包括：获取日志数据，并对其进行预处理；将经预处理后的日志数据输入日志预测模型组，日志预测模型组包括至少n项日志预测模型；其中，n为大于1的整数；日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的；针对每个日志预测模型，基于经预处理后的日志数据，得到预测结果；对n项日志预测模型输出的预测结果进行投票融合，以输出预测日志分类结果。

此外，上述的存储器43中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于文本分类的日志异常检测方法，该方法包括：获取日志数据，并对其进行预处理；将经预处理后的日志数据输入日志预测模型组，日志预测模型组包括至少n项日志预测模型；其中，n为大于1的整数；日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的；针对每个日志预测模型，基于经预处理后的日志数据，得到预测结果；对n项日志预测模型输出的预测结果进行投票融合，以输出预测日志分类结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于文本分类的日志异常检测方法，该方法包括：获取日志数据，并对其进行预处理；将经预处理后的日志数据输入日志预测模型组，日志预测模型组包括至少n项日志预测模型；其中，n为大于1 的整数；日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的；针对每个日志预测模型，基于经预处理后的日志数据，得到预测结果；对n项日志预测模型输出的预测结果进行投票融合，以输出预测日志分类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于文本分类的日志异常检测方法，其特征在于，包括：

获取日志数据，并对其进行预处理；

将经预处理后的日志数据输入日志预测模型组，所述日志预测模型组包括n项日志预测模型；其中，n为大于1的整数；所述日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的；

针对每个日志预测模型，基于所述经预处理后的日志数据，得到预测结果；

对n项日志预测模型输出的预测结果进行投票融合，以输出预测日志分类结果。

2.根据权利要求1所述的基于文本分类的日志异常检测方法，其特征在于，所述针对n项日志预测模型对应的预测结果进行投票融合，以输出预测日志分类结果，包括：

对n个预测结果分别进行标记，将预测结果为正常的标记为1，预测结果为异常的标记为0；

通过设定的投票方式，对标记后的n个预测结果进行投票融合，得到预测日志分类结果。

3.根据权利要求1所述的基于文本分类的日志异常检测方法，其特征在于，所述投票方式表示为：

4.根据权利要求1所述的基于文本分类的日志异常检测方法，其特征在于，所述日志预测模型组包括极端梯度提升xgboost模型、朴素贝叶斯模型和临近算法KNN模型中的至少一项。

5.根据权利要求4所述的基于文本分类的日志异常检测方法，其特征在于，在所述极端梯度提升xgboost模型中，决策树深度设置为5，学习率设置为0.01，子树数量设置为500，子算法类型设置为二项式逻辑回归binary:logistic模型，指算法模式设置为二叉查找树gbtree；

在所述朴素贝叶斯模型中，平滑区间设置为1e-09；

在所述临近算法KNN模型中，邻近个数设置为5，权重设置为0.01，搜索算法设置为自动，距离计算公式采用欧式距离。

6.根据权利要求1所述的基于文本分类的日志异常检测方法，其特征在于，训练所述日志预测模型，包括：

对获取的错误日志进行标识，形成错误样本标签，并基于所述错误样本标签构建样本标签库；

将所述样本标签库内的错误样本标签输入至所述日志预测模型，得到所述日志预测模型输出的训练结果；

将所述训练结果与真实结果进行对比，以判断是否结束训练。

7.根据权利要求1所述的基于文本分类的日志异常检测方法，其特征在于，所述获取日志数据，并对其进行预处理，包括：

对所述日志数据进行清洗，剔除所述日志数据中的异常数据；

对剔除异常数据后的标识数据进行文本分词；

将文本分词结果转换为词向量矩阵。

8.一种基于文本分类的日志异常检测系统，其特征在于，包括：

数据处理模块，获取日志数据，并对其进行预处理；

日志预测模型组模块，将经预处理后的日志数据输入日志预测模型组模块，所述日志预测模型组模块包括至少n项日志预测模型子模块；其中，n为大于1的整数；所述日志预测模型子模块是基于错误日志和错误日志对应的日志分类结果训练得到的；针对每个日志预测模型子模块，基于所述经预处理后的日志数据，得到预测结果；

投票模块，对n项日志预测模型模块输出的预测结果进行投票融合，以输出预测日志分类结果。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于文本分类的日志异常检测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于文本分类的日志异常检测方法的步骤。