CN111881983A

CN111881983A - 基于分类模型的数据处理方法、装置、电子设备及介质

Info

Publication number: CN111881983A
Application number: CN202010751730.0A
Authority: CN
Inventors: 邓悦; 郑立颖; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-03
Anticipated expiration: 2040-07-30
Also published as: WO2021139279A1; CN111881983B

Abstract

本申请实施例公开了一种基于分类模型的数据处理方法、装置、电子设备及介质，涉及人工智能，其中方法包括：获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。

Description

基于分类模型的数据处理方法、装置、电子设备及介质

技术领域

本申请涉及人工智能领域，尤其涉及一种基于分类模型的数据处理方法、装置、电子设备及介质。

背景技术

异常检测是智能运营(AIOps)系统中的一项非常基础但是十分重要的功能，主要是通过算法和模型去自动的挖掘发现KPI(Key Performance Indicator)时间序列数据中的异常行为，为后续的报警，自动止损，根因分析等提供必要的决策依据。

日志是由大规模系统生成来记录系统状态和运行时状态的文本信息，每个日志都包括时间戳和指示发生了什么的文本消息。传统的异常日志分类模型为了获取准确率通常使用监督学习方法，采用的是标记日志数据(对正常情况和异常情况有明确的说明)，然而海量日志中具有标记的日志数据十分稀少，而对无标记的日志数据进行标注，在现代化系统的海量日志信息中非常耗费人力和时间。并且，异常类型及KPI类型多样，给异常检测带来了极大的困难。

发明内容

本申请实施例提供一种基于分类模型的数据处理方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种基于分类模型的数据处理方法，所述方法包括：

获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；

对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；

基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；

基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。

作为一种可能的实施方式，所述基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理之前，所述方法还包括：

将所述标记日志数据输入所述文本分类网络模型进行训练，获得所述标记日志数据的交叉熵损失；

所述基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，包括：

根据所述标记日志数据的交叉熵损失和所述无标记日志数据的一致性损失计算目标损失；

基于所述目标损失训练所述文本分类网络模型，获得所述目标分类模型。

作为一种可能的实施方式，所述文本分类网络模型的输入层包括设置的长度阈值，所述将所述标记日志数据输入所述文本分类网络模型进行训练，包括：

将所述标记日志数据的样本序列输入所述文本分类网络模型，在所述文本分类网络模型的输入层：

判断所述样本序列的文本长度是否小于所述长度阈值；

若所述样本序列的文本长度小于所述长度阈值，使用自定义填充符将所述样本序列填充至满足所述长度阈值，若所述样本序列的文本长度大于所述长度阈值，将所述样本序列截取为满足所述长度阈值的子序列，并构建所述样本序列的词向量，所述样本序列的词向量包括所述样本序列中各个词汇对应的分布式表示。

作为一种可能的实施方式，所述方法还包括：

在所述文本分类网络模型的训练过程中，根据标记日志数据的增加情况，逐步删除训练中的标记日志数据。

作为一种可能的实施方式，所述根据标记日志数据的增加情况，逐步删除训练中的标记日志数据，包括：

在训练步数达到预设步数阈值的情况下，当由所述标记日志数据中目标标记日志数据获得的预测正确的概率大于概率阈值时，将所述目标标记日志数据从损失函数中删除；

所述预测正确的概率为，预测所述目标标记日志数据的类别结果与所述目标标记日志数据的标记信息相同的概率；

所述概率阈值根据所述训练步数和训练总步数进行更新。

作为一种可能的实施方式，所述方法还包括：

根据所述目标分类模型对系统日志数据进行分析，获得分析结果，所述分析结果包括所述系统日志数据属于每个异常等级的概率。

作为一种可能的实施方式，所述对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，包括：

对所述无标记日志数据进行回译处理，以及确定所述无标记日志数据中的关键词，根据所述关键词进行同义词替换，获得所述增强的无标记日志数据。

第二方面，本申请实施例提供了一种基于分类模型的数据处理装置，包括：

获取模块，用于获取日志数据，所述日志数据包括标记日志数据和无标记

日志数据，所述标记日志数据携带标记信息；

数据增强模块，用于对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；

预测模块，用于基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理，获得所述增强的无标记日志数据的一致性损失，所述一致性损失表示：所述无标记日志数据和所述增强的无标记日志数据在所述文本分类网络模型处理中，分别对应的输出之间的距离；

训练模块，用于基于所述一致性损失训练所述文本分类网络模型，获得目标分类模型，以及所述无标记日志数据的异常信息。

第三方面，本申请实施例还提供了一种电子设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面及其任一种可能的实施方式所述的方法。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面及其任一种可能的实施方式的方法。

本申请实施例通过获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息，对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离，再基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。在数据样本大规模不平衡的情况下，对无标记日志数据进行数据增强，可以扩大训练样本中异常日志数据的数量，取代了传统的噪声注入方法，从而提高模型对异常点的识别；无需AI运营人员进行大量的日志标注工作，所需标记数据少，准确率高；并且在训练时间推移中可以获得无标记日志数据的异常信息，即无标记日志数据会逐渐被打上标签，较传统的无监督学习模型训练速度加快，内存占用小，对硬件的计算负担大大降低，适合大规模部署。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种基于分类模型的数据处理方法的流程示意图；

图2是本申请实施例提供的一种无标记异常日志数据增强方法架构示意图；

图3是本申请实施例提供的另一种基于分类模型的数据处理方法的流程示意图；

图4是本申请实施例提供的一种构建词向量的方法示意图；

图5是本申请实施例提供的一种基于分类模型的数据处理装置的结构示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

为了能够更好地理解本申请实施例，下面将对应用本申请实施例的方法进行介绍。

本申请实施例中提到的电子设备可以为终端设备或服务器。终端设备是可以与服务器进行通信的设备，本申请实施例中的服务器也称伺服器，是提供计算服务的设备，可以允许多个终端设备进行访问。上述终端设备包括但不限于台式计算机、移动终端，上述移动终端可包括各种具有无线通信功能的手持设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(MobileStation，MS)等等。

本申请实施例中提到的KPI数据(Key Performance Indicator)是有实际应用意义的、通过定时采样获取的时间序列数据，KPI数据异常检测对于企业应用有着十分重要的意义：通过实时的监控KPI数据，发现KPI数据存在的异常，及时进行相应处理，从而保证应用的正常运行。KPI指标种类很多，每种属于一个类型。比如系统CPU占用率、CPU运行时长等。

异常检测是指对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。不属于正常数据趋势的统称为异常，因此类型多样且难以定义。

本申请实施例涉及人工神经网络(Artificial Neural Networks，ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

本申请实施例中涉及到的监督学习是指：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中，每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。

而现实生活中常常会有这样的问题：缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。

请参见图1，是本申请实施例提供的一种基于分类模型的数据处理方法的示意流程图，如图1所示该方法可包括：

101、获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息。

本申请实施例中的执行主体可以为一种基于分类模型的数据处理装置，具体可以为上述电子设备。

日志是由大规模系统生成来记录系统状态和运行时状态的文本信息，每个日志都包括时间戳和指示发生了什么的文本消息。

上述标记日志数据指的有标记信息的日志数据，标记信息即对正常情况和异常情况有明确的说明(如异常等级：严重、普通、轻微等)，然而海量日志中具有标记的日志数据实在是少之又少，而对无标记日志数据进行标注，在现代化系统的海量日志信息中非常耗费人力和时间。

本申请中可以仅依赖于少量标记日志数据，来对无标记日志数据进行正确的预测，可以极大地扩充模型的异常日志数量，也便于后续使用异常日志的分析和管理。在获取作为样本数据的标记日志数据和无标记日志数据之后，可以执行步骤102。

102、对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据。

本申请实施例中可以使用文本分类网络模型(Text-CNN)，Text-CNN是一种利用卷积神经网络对文本进行分类的算法，是采用卷积神经网络提取文本N-gram特征、最大池化、全连接然后进行分类的一种新型模型，由四部分构成提取文本：输入层、卷积层、池化层、全连接层。

对于上述标记日志数据，可以使用监督学习的方法来计算交叉熵损失函数。而具体的，本申请实施例中对于未标记数据，可以应用一致性训练模式，即异常日志数据和经过数据增强的异常日志数据，在相同模型下的输出是一致的，根据这个原则预测无标记日志数据的标记信息(标签)和增强之后的对应无标记日志数据的预测是否相似。

在一种可选的实施方式中，上述步骤102包括：

对上述无标记日志数据进行回译处理，以及确定上述无标记日志数据中的关键词，根据上述关键词进行同义词替换，获得上述增强的无标记日志数据。

具体的，在一致性训练模式下，对异常日志的具体扩充方法可以采用回译处理的方法。回译即是将A语言的译文B翻译成A语言。回译可分为两种：术语回归回译和翻译精确性测试回译。回译能够在保存日志文本语义不变的情况下，生成不同的表达，增强文本的多样性。

可选的，还可以使用TF-IDF替换单词法，TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，其中TF是词频(Term Frequency)，IDF是逆文本频率指数(InverseDocument Frequency)。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

使用TF-IDF优化了EDA(Easy data augmentation，对输入文本进行词语操作，比如替换、删除、插入、交换)的随机处理词策略，可以根据DBPedia先验知识和实际语料的词频确定关键词，再根据确定好的关键词替换同义词，避免无用数据和错误数据的产生。上述DBPedia是一种知识图谱或者概念库，从维基百科或者网页文章中提取各种不同的概念。通过上述方式可以保证在日志文本扩充的同时使扩充的日志文本包含必要的关键词。其中，上述回译处理是对整个文档进行数据增强，上述TF-IDF是对单词层面的处理。

103、基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离。

具体的，可以参见图2所示的一种无标记异常日志数据增强方法架构示意图。如图2所示，对于无标记日志数据，应用一致性训练模式来预测。图2中x表示日志数据，y可表示日志数据的标签，

x是x经过增强的日志数据输入。图2中M是根据x预测y的模型，其中：p_θ(yx)为根据x预测y的概率，对应的M为根据x预测y的模型；

为根据

预测y的概率，对应的M为根据

预测y的模型；θ表示模型的各种参数。其中，如图2中下半部分，x表示无标记日志数据，

则表示通过上述回译处理和/或TF-IDF替换单词法增强的无标记日志数据；Text-CNN模型被同时应用于无标记日志数据和增强的对应无标记日志数据，计算产生的两个模型输出之间的距离，即一致性损失，进而计算网络的最终损失。

图2所示的训练方法还可以参考后文中的具体介绍，此处不再赘述。

104、基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。

将上述一致性损失降至最低(可以是降低到预设损失阈值以下)，会逐渐将标记日志数据的标记信息从已标记的日志数据传播到未标记的日志数据，即获得无标记日志数据的预测标记信息，则可以确定其中的异常日志数据。本申请实施例中模型的适用范围被极大的拓宽，只需要少量的有标记异常日志，再根据有标记异常日志的标签信息对无标记日志进行一致性预测，就可以极大地扩充模型的异常日志输入数，从而提高模型对异常点的识别，准确率且可以和使用大量标记数据的监督模型相媲美，甚至超越。通过该模型处理日志数据，也能够降低异常检测的成本。

上述异常信息为网络模型预测的标记信息，可以理解为通过预测确定无标记日志数据的异常等级或者异常分类。

在一种实施方式中，上述方法还包括：

根据上述目标分类模型对系统日志数据进行分析，获得分析结果，上述分析结果包括上述系统日志数据属于每个异常等级的概率等。

AI运营人员可以根据Text-CNN模型对系统日志的分析结果，可以获悉日志所反映出来的系统运行状态，从而制定具体的运维策略，如：

对异常日志系统分优先级管理，重点关注容易发生重大异常的运行情况。

对于优先级高的异常日志，一旦出现重大异常情况，要及时采取应急措施，务必快速响应，定位到具体的故障原因，并加以排除。

本申请实施例中的训练方法和对日志数据进行分析的应用方法可以分别在不同的装置中执行。

本申请实施例通过获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息，对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离，再基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。在数据样本大规模不平衡的情况下，对无标记日志数据进行数据增强，可以扩大训练样本中异常日志数据的数量，取代了传统的噪声注入方法，从而提高模型对异常点的识别；无需AI运营人员进行大量的日志标注工作，所需标记数据少，准确率高，适用于智能运维数字业务新引擎(AIOps)；并且在训练时间推移中可以获得无标记日志数据的异常信息，即无标记日志数据会逐渐被打上标签，较传统的无监督学习模型训练速度加快，内存占用小，对硬件的计算负担大大降低，适合大规模部署。

参见图3，是本申请实施例提供的另一种基于分类模型的数据处理方法的示意流程图，图3所示的实施例可以是在图1所示的实施例的基础上得到的，如图3所示该方法可包括：

301、获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息。

302、对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据。

其中，上述步骤301和步骤302可以分别参考图1所示实施例的步骤101和步骤102中的具体描述，此处不再赘述。

303、将上述标记日志数据输入上述文本分类网络模型进行训练，获得上述标记日志数据的交叉熵损失。

具体的，对于标记日志数据，可以使用监督学习的方法来计算交叉熵损失函数，如前述图2中的上半部分。其中M选用Text-CNN模型，具体结构可以如下所述：

1)输入层(词嵌入层)：

在一种可选的实施方式中，上述文本分类网络模型的输入层包括设置的长度阈值；上述将上述标记日志数据输入上述文本分类网络模型进行训练，包括：

将上述标记日志数据的样本序列输入上述文本分类网络模型，在上述文本分类网络模型的输入层：

判断上述样本序列的文本长度是否小于上述长度阈值；

若上述样本序列的文本长度小于上述长度阈值，使用自定义填充符将上述样本序列填充至满足上述长度阈值，若上述样本序列的文本长度大于上述长度阈值，将上述样本序列截取为满足上述长度阈值的子序列，并构建上述样本序列的词向量，上述样本序列的词向量包括上述样本序列中各个词汇对应的分布式表示。

具体的，在Text-CNN模型的输入层需要输入一个定长的日志文本序列，可以通过分析语料集样本的长度指定一个输入序列的长度L，即预先设置该长度阈值。对于输入的日志数据，比L短的样本序列需要进行填充，比L长的序列需要进行截取。

举例来讲，异常日志如下：

2008-11-09 20:55:54 PacketResponder 0for block blk_321terminating重大异常

2008-11-09 20:55:54 Received block blk_321of size 67108864from轻微异常/10.251.195.70

2008-11-09 20:55:54 PacketResponder 2for block blk_321terminating

2008-11-09 20:55:54 Received block blk_321of size 67108864from/10.251.126.5

2008-11-09 21:56:50 10.251.126.5:50010:Got exception while servingblk_321to/10.251.127.243

2008-11-10 03:58:04 Vertification succeeded for blk_321正常

2008-11-10 10:36:37 Deleting block blk_321file/mnt/hadoop/dfs/data/current/subdir1/blk_321

2008-11-10 10:36:50 Deleting block blk_321file/mnt/hadoop/dfs/data/current/subdir1/blk_321

可以参见图4所示的一种构建词向量的方法示意图，图4中对应于前文提及的日志文件：

“2008-11-09 20:55:54PacketResponder 0for block blk_321terminating重大异常”；

该条日志信息中共包含6个单词，每个单词作为一个向量，由于单词数为6，可以假设每个向量维度是1*5，从而使每个单词尽可能区分开。最终输入层输入的是日志文本序列中各个词汇对应的分布式表示，即词向量。

304、基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离。

其中，上述步骤304可以参考图1所示实施例的步骤103中的具体描述，此处不再赘述。

305、将上述标记日志数据输入上述文本分类网络模型进行训练，获得上述标记日志数据的交叉熵损失。

对于标记日志数据，使用监督学习的方法来计算交叉熵损失函数，如图2上半部分。交叉熵是信息论中的一个重要概念，主要用于度量两个概率分布间的差异性。交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小，模型预测效果就越好。

本申请实施例选用上述Text-CNN模型，其输入层如步骤303中所述。进一步的，该模型还包括：

2)卷积层：

在自然语言处理(Natural Language Processing，NLP)领域一般卷积核只进行一维的滑动，即卷积核的宽度与词向量的维度等宽，卷积核只进行一维的滑动。本申请实施例中的Text-CNN模型一般使用多个不同尺寸的卷积核。卷积核的高度，即窗口值，可以理解为N-gram模型中的N，即利用的局部词序的长度，意思是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。其中窗口值也是一个超参数，需要在任务中尝试确定，可选的，上述窗口值可以选取2-8之间的整数值。

3)池化层：

在Text-CNN模型的池化层中使用了最大值池化(Max-pool)，即减少模型的参数，又保证了在不定长的卷基层的输出上获得一个定长的全连接层的输入。

卷积层与池化层在分类模型的核心作用就是提取特征，从输入的定长文本序列中，利用局部词序信息，提取初级的特征，并组合初级的特征为高级特征，通过卷积与池化操作，省去了传统机器学习中的特征工程的步骤。

4)全连接层：

全连接层的作用就是分类器，原始的Text-CNN模型使用了只有一层隐藏层的全连接网络，相当于把从卷积与池化层提取的异常日志特征输入到一个Softmax函数中进行分类，输出日志数据分类为每个类别的概率。本申请实施例中设定的输出规则可以为异常等级，包括：重大异常、普通异常、轻微异常和正常，则模型会输出每条日志属于每个异常等级的概率，可以实现日志异常等级的分类。

306、根据上述标记日志数据的交叉熵损失和上述无标记日志数据的一致性损失计算目标损失。

具体的，本申请实施例中的无标记异常数据增强技术通过结合标记日志数据的交叉熵损失和无标记日志数据的无监督一致性损失，来计算最终损失，即上述目标损失，公式可如下：

其中，J(θ)是目标损失函数，

是标记数据的交叉熵损失函数，

是未标记数据的相对熵损失函数；其中λ的设置是为了平衡监督损失和无监督损失，θ表示模型的各种参数，可以包括神经网络的权重，卷积核数量，滑动窗口大小等。

307、基于上述目标损失训练上述文本分类网络模型，获得上述目标分类模型。

具体的，根据上述步骤306中的描述，可以进行文本分类网络模型(Text-CNN模型)的训练，其损失函数使用上述目标损失函数。训练获得用于日志分析和异常检测的目标分类模型。

在一种可选的实施方式中，可以在上述文本分类网络模型的训练过程中，根据标记日志数据的增加情况，逐步删除训练中的标记日志数据。

由于目标损失函数中前半部分的标记日志数据比较少，而后半部分的无标记日志数据比较多，所以前在模型训练之初，必定会随着训练次数的增加而发生过拟合现象。为了防止这种过拟合，本申请实施例提出了训练信号退火法的方法，该方法仅仅只针对标记日志数据。具体的，可通过动态改变阈值来防止过拟合。其基本原理如下：在训练的过程中，随着无标记日志数据的增加，逐步删除训练中的标记日志数据，从而避免模型对标记日志数据过拟合。

在一种实施方式中，上述根据标记日志数据的增加情况，逐步删除训练中的标记日志数据，包括：

在训练步数达到预设步数阈值的情况下，当由上述标记日志数据中目标标记日志数据获得的预测正确的概率大于概率阈值时，将上述目标标记日志数据从损失函数中删除；

上述预测正确的概率为，预测上述目标标记日志数据的类别结果与上述目标标记日志数据的标记信息相同的概率；

上述概率阈值根据上述训练步数和训练总步数进行更新。

具体的，可以预先设置预设步数阈值与概率阈值的对应关系，使用概率阈值η_t表示该对应关系，即在不同的训练步数t可以使用不同的概率阈值。在训练步数为t步时，当由某个标记数据计算出的p(y^*|x)(预测正确的概率)大于概率阈值η_t时，就将该标记日志数据从损失函数中移除。

其中，设定K为类别数，η_t的取值可以在区间

上逐渐递增，以防止对标记数据过拟合。在一种实施方式中，概率阈值η_t的更新方式可以为：

其中α_t可以根据需要进行设置，举例来讲，α_t可以包括以下对数、线性和指数形式：

其中，T表示总的训练步数，t为当前训练步数。

本申请实施例中的阈值α_t可以根据标记日志数据的数据量设置为上述对数、线性或指数形式，具体的，对应于以下三种不同的适用条件：

(1)当问题相对容易，标记数据量比较少，模型很容易发生过拟合时，模型能够在短时间内根据数据做出高概率的预测，此时我们就可以采用exp指数函数，来使阈值的增长缓慢一些，以便删除更多容易训练的样本。

(2)当数据量比较大，模型很难发生过拟合时，模型需要花费很长时间才能做出高概率的预测，相同时间内模型输出的高概率预测样本就比较少，需要删除的样本也比较少，此时我们可以采用log对数函数，来使阈值的增长快速一些，这样删除的样本就比较少。

(3)对于一般的样本，采用线性函数来调整阈值即可。

训练获得的上述目标分类模型可以用于日志数据分析。根据Text-CNN模型对系统日志的分析结果，可以获悉日志所反映出来的系统运行状态，从而制定具体的运维策略：

本申请实施例的基于分类模型的数据处理方法，对文本分类网络模型训练所需标记数据少，准确率高，无需人工进行大量的日志标注工作，节省大量人工标注数据的时间和精力，从而极大的降低异常检测的成本。同时，模型的适用范围被极大的拓宽，只需要少量的标记日志数据(包括少量有标记异常日志)，再根据有标记异常日志的标签信息对无标记日志进行一致性预测，就可以极大地扩充模型的异常日志输入数，从而提高模型对异常点的识别，准确率且可以和使用大量标记数据的监督模型相媲美，甚至超越。

另外，由于所需标记日志数据量小，且无标记日志数据会随着时间的转移逐渐打上标签，较传统的无监督学习模型训练速度加快，内存占用小，对硬件的计算负担大大降低，适合大规模部署。

请参见图5，图5是本申请实施例提供的一种基于分类模型的数据处理装置的结构示意图，该基于分类模型的数据处理装置500包括：

获取模块510，用于获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息；

数据增强模块520，用于对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据；

预测模块530，用于基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离；

训练模块540，用于基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。

可选的，上述训练模块540还用于，在上述预测模块530基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理之前：

将上述标记日志数据输入上述文本分类网络模型进行训练，获得上述标记日志数据的交叉熵损失；

根据上述标记日志数据的交叉熵损失和上述无标记日志数据的一致性损失计算目标损失；

基于上述目标损失训练上述文本分类网络模型，获得上述目标分类模型。

可选的，上述文本分类网络模型的输入层包括设置的长度阈值，上述训练模块540具体用于：

判断上述样本序列的文本长度是否小于上述长度阈值；

可选的，上述训练模块540还用于，在上述文本分类网络模型的训练过程中，根据标记日志数据的增加情况，逐步删除训练中的标记日志数据。

进一步可选的，上述训练模块540具体用于：

上述概率阈值根据上述训练步数和训练总步数进行更新。

可选的，上述基于分类模型的数据处理装置500还包括分析模块550，用于根据上述目标分类模型对系统日志数据进行分析，获得分析结果，上述分析结果包括上述系统日志数据属于每个异常等级的概率。

根据本申请实施例的具体实施方式，图1与图3所示的基于分类模型的数据处理方法涉及的步骤可以是由图5所示的基于分类模型的数据处理装置500中的各个模块来执行的，此处不再赘述。

通过本申请实施例的基于分类模型的数据处理装置500，基于分类模型的数据处理装置500可以获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息，对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离，再基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。在数据样本大规模不平衡的情况下，对无标记日志数据进行数据增强，可以扩大训练样本中异常日志数据的数量，取代了传统的噪声注入方法，从而提高模型对异常点的识别；无需AI运营人员进行大量的日志标注工作，所需标记数据少，准确率高；并且在训练时间推移中可以获得无标记日志数据的异常信息，即无标记日志数据会逐渐被打上标签，较传统的无监督学习模型训练速度加快，内存占用小，对硬件的计算负担大大降低，适合大规模部署。

请参阅图6，图6是本申请实施例公开的一种电子设备的结构示意图。如图6所示，该电子设备600包括处理器601和存储器602，其中，电子设备600还可以包括总线603，处理器601和存储器602可以通过总线603相互连接，总线603可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线603可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。其中，电子设备600还可以包括输入输出设备604，输入输出设备604可以包括显示屏，例如液晶显示屏。存储器602用于存储包含指令的一个或多个程序；处理器601用于调用存储在存储器602中的指令执行上述图1和图3实施例中提到的部分或全部方法步骤。

应当理解，在本申请实施例中，所称处理器601可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备602可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备603可以包括显示器(LCD等)、扬声器等。

该存储器604可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器。例如，存储器604还可以存储设备类型的信息。

通过本申请实施例的电子设备600，电子设备600可以获取日志数据，上述日志数据包括标记日志数据和无标记日志数据，上述标记日志数据携带标记信息，对上述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，基于文本分类网络模型，根据上述标记日志数据对上述增强的无标记日志数据进行预测处理，获得上述增强的无标记日志数据的一致性损失，上述一致性损失表示：上述无标记日志数据和上述增强的无标记日志数据在上述文本分类网络模型处理中，分别对应的输出之间的距离，再基于上述一致性损失训练上述文本分类网络模型，获得目标分类模型，以及上述无标记日志数据的异常信息。在数据样本大规模不平衡的情况下，对无标记日志数据进行数据增强，可以扩大训练样本中异常日志数据的数量，取代了传统的噪声注入方法，从而提高模型对异常点的识别；无需AI运营人员进行大量的日志标注工作，所需标记数据少，准确率高；并且在训练时间推移中可以获得无标记日志数据的异常信息，即无标记日志数据会逐渐被打上标签，较传统的无监督学习模型训练速度加快，内存占用小，对硬件的计算负担大大降低，适合大规模部署。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种基于分类模型的数据处理方法的部分或全部步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于分类模型的数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于文本分类网络模型，根据所述标记日志数据对所述增强的无标记日志数据进行预测处理之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述文本分类网络模型的输入层包括设置的长度阈值，所述将所述标记日志数据输入所述文本分类网络模型进行训练，包括：

判断所述样本序列的文本长度是否小于所述长度阈值；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据标记日志数据的增加情况，逐步删除训练中的标记日志数据，包括：

所述概率阈值根据所述训练步数和训练总步数进行更新。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，所述对所述无标记日志数据进行数据增强处理，获得增强的无标记日志数据，包括：

8.一种基于分类模型的数据处理装置，其特征在于，包括：

获取模块，用于获取日志数据，所述日志数据包括标记日志数据和无标记日志数据，所述标记日志数据携带标记信息；

9.一种电子设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。