CN110969015B

CN110969015B - 一种基于运维脚本的标签自动化识别方法和设备

Info

Publication number: CN110969015B
Application number: CN201911188438.6A
Authority: CN
Inventors: 李天宇; 方晓蓉; 刘文意; 钱偲书; 何旭东
Original assignee: State Grid Shanghai Electric Power Co Ltd
Current assignee: State Grid Shanghai Electric Power Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2023-05-16
Anticipated expiration: 2039-11-28
Also published as: CN110969015A

Abstract

本发明提出了一种基于运维脚本的标签自动化识别方法和设备，方法包括：收集整理运维对象的检查项和专业术语，构建运维专业词典；为每个运维脚本建立相应的知识文本，以结构化形式存放脚本的关键内容；基于运维专业词典使用分词工具将知识文本分词，形成词序列，利用词特征向量模型训练并输出词向量；构建深度神经网络模型，以词向量作为输入，以标签作为输出，训练深度神经网络模型；对待标注的运维脚本进行分词、词向量训练后，输入到训练好的深度神经网络模型进行标签预测。本发明在人工标签的知识脚本样本集上进行训练，经过不断的训练与更正，最终实现对脚本的标签自动化分类识别，大大减轻脚本的维护工作量。

Description

一种基于运维脚本的标签自动化识别方法和设备

技术领域

本发明涉及计算机领域，具体涉及一种针对大量的运维脚本进行标签的自动化分类识别方法和设备。

背景技术

在操作系统、数据库和中间件的日常运维工作中，运维专家通常编写相关的脚本完成系统部署、分析和故障定位和排查工作。对于系统的不同模块和组件，只有脚本的开发人员才能够知道脚本的功能，所以需要通过给运维脚本打标签来识别脚本的运维对象和功能，最终实现故障的分析和定位。一个标签就是一个词语，用于标记脚本定位运维对象(如数据库、中间件和操作系统)的哪个方面出现问题。目前一般都是通过手动添加标签。手动添加标签往往要耗费脚本开发和维护人员大量的时间和精力，成本较高且效率比较低。另外，对人员的稳定性也提出了要求，一旦出现人员交替，往往又需要新人员耗费精力才能够知晓脚本的内容，才能为后面运维工作的分析和定位做好充分的准备工作。

发明内容

发明目的：针对上面所说的缺点，本发明旨在提供一种基于运维知识脚本的标签智能识别方法和系统，实现对运维脚本的标签自动化识别。

技术方案：根据本发明的第一方面，提供一种基于运维脚本的标签自动化识别方法，包括如下步骤：

S1、收集整理运维对象的检查项和专业术语，构建运维专业词典；

S2、为每个运维脚本建立相应的知识文本，以结构化形式存放脚本的关键内容；

S3、基于运维专业词典使用分词工具将知识文本分词，形成词序列，利用词特征向量模型训练并输出词向量；

S4、构建深度神经网络模型，以词向量作为输入，以标签作为输出，训练深度神经网络模型；

S5、对待标注的运维脚本进行分词、词向量训练后，输入到训练好的深度神经网络模型进行标签预测。

进一步地，所述步骤S2中对每个运维脚本创建对应后缀为txt和lab的文件类型，其中txt文件内容为脚本的检查项、脚本功能和诊断建议，lab文件内容为脚本的标签。

进一步地，所述步骤S3包括：

S3-1)结合运维专业词典运用分词器对运维知识语料库中所有的txt类型文件进行分词，每个文本分解成一系列的词序列；

S3-2)将词序列进行One-hot编码作为输入，运用CBOW和Skip-gram构造Word2Vec词特征向量模型；

S3-3)将词向量模型使用StandardScaler缩放器标准化词特征向量并保存为std.scaler，内容为各个词特征向量的平均值和标准差；

S3-4)结合词向量模型将分词后的词序列转化为神经网络模型可以处理的词向量。

进一步地，所述步骤S3-4包括：对于某个知识文本分词后词序列，遍历该词序列中的每一个单词，如果单词在词向量模型中，那么就从词向量模型中获取对应的词特征向量，并用StandardScaler缩放器标准化，这样知识文本集就构建成一个3维矩阵[N,M,V]作为深度神经网络模型的输入X，其中N为知识文本的数目，M为一个知识文本可以被切分的最大单词数目，V为词特征向量的维数。

进一步地，所述步骤S4中使用一维卷积神经网络从词向量序列中提取特征并映射序列的内部特征，该卷积神经网络以步骤S3得到的词向量作为输入X，以Lab文件的内容作为输出Y。

进一步地，所述1维卷积神经网络包括一个输入层，一个卷积层Conv1D，一个池化层MaxPooling1D，一个融合层Concatenate，一个Dropout层，一个Flatten层，一个Dense输出层，其中，

所述输入层参数为矩阵，维数为[N,V]，其中N为样本大小，V为词向量维数；

所述卷积层Conv1D用于提取特征，在卷积层Conv1D上，需要设置过滤器的数目，卷积窗口的大小，卷积内核权重矩阵的初始化函数，卷积层的激活函数；

所述池化层Maxpooling1D用于对特征进行压缩；

所述融合层Concatenate用于将基于不同的卷积窗口大小依次构建的层序列进行组合，层序列中依次为输入层-卷积层层Conv1D-池化层Maxpooling1D；

在融合层Concatenate上依次构建Dropout层，Flatten层，Dense输出层，Dropout层用于在训练过程中随机忽略该层的神经元，Flatten层用来将多维的输入一维化，Dense输出层的大小是总标签数目值。

根据本发明的第二方面，提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如本发明第一方面所述的步骤。

有益效果：本发明利用收集的大量运维语料库构建词向量模型，利用机器学习和自然语言处理的相关技术对运维脚本进行训练从而构造模型，最后利用模型对运维脚本进行预测，从而实现实现运维知识脚本的标签自动化过程。当运维对象的指标出现故障时，可以利用本发明根据指标检查项迅速定位到脚本，根据智能标签寻找故障原因。

附图说明

图1为根据本发明实施例的标签自动化分类方法流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

参照图1，本发明的基于运维脚本对标签进行自动化识别的方法包括以下步骤：

步骤S1、构建运维专业词典库。

该步骤主要是通过运维专家来整理操作系统、数据库和中间件等不同运维对象的检查项和专业术语，通过整理大量有关运维对象的指标检查项或专用运维术语并收录到词典中，形成运维专业词典库。

例如下面数据库的自定义词典，包括的部分检查项和专业术语如下：

DB FILE SEQUENCE READ

EXPDP/IMPDP

日志文件

...

SHARED POOL

步骤S2、知识脚本预处理。

基于现有的大量运维知识脚本，主要任务是为每个运维脚本建立相应的知识文本，以结构化形式存放脚本的关键内容。通过将非结构化的知识脚本转换为结构化的知识文本以便于运用机器学习的方法进行处理。

对运维脚本进行抽象，主要数据结构包括：运维知识名称，文本所涉及的检查项，文本的功能描述，运维对象的建议操作，运维标签。为每个脚本创建对应后缀为txt和lab的文件类型，其中txt文件内容为脚本的检查项、脚本功能和诊断建议，lab文件内容为脚本的标签。

例如，运维知识点名称为top_sql_logical_read，与其有关的文件包括top_sql_logical_read.txt和top_sql_logical_read.lab。

top_sql_logical_read.txt包括知识检查项，功能和诊断建议，内容如下：

检查项：Logical Reads Per Sec--每秒钟的逻辑读次数，Total PGA Used bySQL Workareas--SQL使用的系统全局域。

功能：逻辑读较多的TOP SQL在其的执行过程中，扫描了大量的数据块，从而导致逻辑读比较高。

诊断：区分top sql是逻辑读还是执行次数增多进行进一步诊断。

top_sql_logical_read.lab是运维专家给运维知识注册的标签，内容为：SQL,数据库负载,逻辑读。

步骤S3、构建词特征向量。

本发明基于自然语言处理中具有相似意义的词具有相似的表示这一基本原则，使用词嵌入方法将词语映射到实数向量，便于模型对单词进行计算。本步骤主要是参照运维专业词典，将运维知识文本内容作为输入，利用分词器对知识脚本内容进行切词，然后基于CBOW(Continuous Bag-of-Words)和Skip-gram算法构建词特征向量，作为步骤S4中神经网络模型的输入。

具体包括以下步骤：

S3-1)结合运维自定义词典运用分词器对运维知识语料库中所有的txt类型文件进行分词，这样每个文本就分解成一系列的词序列，并将这些单词加入到词汇表中。分词器可以使用任一自然语言处理文本的分词器。

S3-2)将词汇表中的单词进行One-hot编码，运用CBOW和Skip-gram构造Word2Vec词特征向量模型，将One-hot编码作为Word2Vec词特征向量模型的输入。

CBOW与skip-gram的主要区别在于CBOW使用上下文来预测目标词，而skip-gram使用词来预测目标上下文。与CBOW方法相比，skip-gram方法可以具有更好的性能，因为它可以捕获单个单词的两个语义。

由于genism工具集成了CBOW和skip-gram的实现，本发明利用genism工具构建词特征向量对象Word2Vec，主要属性包括词向量维数size，上下文窗口大小window_size等，工作是构建词汇表，并开始训练Word2Vec词特征向量模型。

Word2Vec主要参数作用如下：

Size：用于表示每个单词的向量空间的维数。如果数据有限，那么大小应该设置小一些，因为只有给定单词的这么多唯一邻居。如果有大量数据，最好尝试各种尺寸。经过实验得到，对于相似性查找值100-150效果比较好。

window_size：目标词与其相邻词之间的最大距离。此处距离指的是两个词在原始文本中的最大间距，例如一句文本[‘数据库’,‘延迟’,‘指标’，‘异常’]，‘延迟’与‘数据库’、‘指标’两个词的距离是1，和‘异常’距离是2。如果相邻词的位置大于左侧或右侧的最大窗口距离，则这些词被视为与目标字不相关。理论上，更小的窗口说明给定的词更相关。如果数据不稀疏，那么窗口大小无关紧要。

min_count：词的最小频率计数。基于非常罕见的单词通常不重要，模型将忽略频率低于min_count的单词。

Epochs：词特征向量模型的训练次数。

向量的质量对于任何应用都是至关重要的，影响词向量质量的因素有：训练数据的数量，向量的大小，训练算法。

经过样本数量的不断增大与训练，词向量模型的质量也在不断提高。一个训练有效的词特征向量模型能够将相似的单词放在彼此靠近的位置，利用Word2vec可以查看运维检查项之间的相似性。例如，下面查看词汇表中与检查项Physical Reads Per Sec相似的词语：

Word Cosine distance

Physical Writes Per Sec 0.852428

Physical Reads Direct Per Sec 0.833130

Physical Writes Direct Per Sec 0.822323

S3-3)将词向量模型使用StandardScaler缩放器标准化词特征向量并保存为std.scaler，内容为各个词特征向量的平均值和标准差以便于预测数据时使用。标准化后会使每个特征中的数值平均变为0、标准差变为1。此处标准缩放器在下文的神经网络模型的训练和预测阶段都需要使用到，目的是为了使训练和预测阶段所有特征向量在统一量纲下，增加模型的泛化能力。

S3-4)结合词向量模型将分词后的词序列转化为神经网络模型可以处理的词向量。例如对于某个知识文本内容的分词后词序列为[‘db file sequence read’,’数据库IO’,’逻辑读’]，遍历该词序列中的每一个单词，如果单词在词向量模型中，那么就从词向量模型中获取对应的词特征向量，并用S3-3处的StandardScaler缩放器标准化。这样知识文本集就构建成一个3维矩阵[N,M,V]作为卷积神经网络模型的输入X，N为txt知识文件的数目，M为一个知识文本可以被切分的最大单词数目(可预设为一个固定数值)，V为词特征向量的维数(对应Word2Vec的Size参数)。

步骤S4、构建并训练卷积神经网络模型。

在本发明中，一个知识文本的标签可能有多个，其本质上是一个多标签分类问题。传统的分类问题其标签只有一个，而多标签分类问题是一个更加复杂的分类任务，需要借助于机器学习手段构建深度神经网络来解决该问题。将知识脚本的一系列的目标标签划分问题当作多标签分类，每个标签并不是相互排斥的。如对于某个知识文本内容的词序列[‘db file sequence read’,’数据库IO’,’逻辑读’]作为一个样本输入，标签序列[‘逻辑读’，‘IO延迟’]作为样本输出，本发明通过深度卷积神经网络来预测多标签分类问题。

神经网络模型使用步骤S3得到的词向量作为神经网络模型的输入X，标签label即Lab文件的内容作为神经网络模型的输出Y。构建输出Y具体方式如下：本发明中的标签都收录在total.label文件中，将全部标签有序保存在一个一维向量中。所有的.lab文件中的标签都在total.label中，遍历每一个lab文件读取其中的label标签，将一维向量中该标签相应的位置1，如此构建出一个二维矩阵[N,W]作为卷积神经网络模型的输出Y，其中N为.lab的文件数目，W为标签总数。

深度神经网络的构建思想如下：

使用1维卷积神经网络(简称1D CNN)从序列数据中提取特征并映射序列的内部特征。1D CNN对于从整个数据集的固定长度段中提取特征非常有效，而且相比较2D CNN来计算效率更高；

采用sigmoid作为神经网络输出层的激活函数，对于输出层的每个分类标签节点都做一次激活，最终输出每个节点为1的概率；

采用binary_crossentropy作神经网络的成本损失函数，使得模型训练过程中不断降低标签的预测值和真实值之间的交叉熵，实现label为1的节点输出值更接近1。

具体地，卷积神经网络基于Keras工具实现，模型包括包括一个输入层，一个卷积层Conv1D，一个池化层MaxPooling1D，一个融合层Concatenate，一个Dropout层，一个Flatten层，一个Dense输出层。

输入层参数为矩阵，维数shape为[N,M,V]，参照S3-4其中N为样本大小，即运维脚本的数目，V为词特征向量维数，即word2vec中的参数Size。

使用卷积层Conv1D提取特征。在卷积层Conv1D上，需要设置过滤器的数目，卷积窗口的大小，卷积内核权重矩阵的初始化函数，卷积层的激活函数。

使用池化层Maxpooling1D对特征进行压缩，对于卷积层过滤器抽取的若干特征值，取其中最大值作为结果，值最大意味着特征最强，通过该层可以达到简化网络计算复杂度并提取主要特征的目的。

基于不同的卷积窗口大小依次构建层序列，层序列中依次为输入层-Conv1D层-Maxpooling1D层，再使用融合层Concatenate将层序列组合。

在融合层Concatenate上依次构建Dropout层，Flatten层，Dense输出层。Dropout层通过在训练过程中随机忽略该层的神经元，使神经元之间无法相互依赖从而提高神经网络的泛化能力。Flatten层用来将输入“压平”，即把多维的输入一维化，常用在从卷积层到全连接层的过渡。

Dense输出层的大小是总label数目值。

模型的损失函数为binary_crossentropy，评估指标为top_k_categorical_accuracy，使用adam优化器。

本发明中设置K＝3，在模型训练和评估过程中，取模型的预测标签值最大的3个与真实值作比较并计算准确率。

将词向量划分训练集与测试集，训练集用于模型的参数训练，测试集用于检测模型预测精度，通常训练集与测试集的比例为8:2，在数据集数目较少的情况下可以使用交叉验证的方法来提高模型的准确率。

通过不断的训练和优化，将top_k_categorical_accuracy表现最好的模型保存起来。

步骤S5、根据训练好的神经网络模型对新脚本进行预测。

在预测脚本之前，首先需要加载上面训练的词向量模型Word2Vec，标准缩放器和卷积神经网络模型。

预测的主要流程是：

将待识别标签的运维脚本转为结构化的知识文本，提取脚本的指标检查项，功能描述与建议操作，具体方法参照步骤S2，此处不再赘述；

参照步骤S3将知识文本进行切词并转化为词特征向量，利用S3-3处保存的标准缩放器std.scaler对词特征向量进行处理，再利用训练好的卷积神经网络模型进行预测。

例如，某数据库知识脚本的模型输出为：

('SQL',0.85456862),

('数据库IO',0.7877324),

('数据库负载',0.693308985),

('RAC',0.43210321),

('会话',0.423407519),

('并发',0.316049236),

('数据库命中率',0.216005903),

根据模型不断的训练，模型设置阈值大于0.6的对应标签值为1。此文本的标签就是'SQL'，'数据库IO'和'数据库负载'。

当运维对象的指标出现故障时，可以利用本发明根据指标检查项迅速定位到脚本，根据智能标签寻找故障原因。

基于与方法实施例相同的技术构思，根据本发明的另一实施例，提供一种计算机设备，所述设备包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现方法实施例中的各步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于运维脚本的标签自动化识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于运维脚本的标签自动化识别方法，其特征在于，所述步骤S2中对每个运维脚本创建对应后缀为txt和lab的文件类型，其中txt文件内容为脚本的检查项、脚本功能和诊断建议，lab文件内容为脚本的标签。

3.根据权利要求2所述的基于运维脚本的标签自动化识别方法，其特征在于，所述步骤S3包括：

4.根据权利要求3所述的基于运维脚本的标签自动化识别方法，其特征在于，所述步骤S3-4包括：对于某个知识文本分词后词序列，遍历该词序列中的每一个单词，如果单词在词向量模型中，那么就从词向量模型中获取对应的词特征向量，并用StandardScaler缩放器标准化，这样知识文本集就构建成一个3维矩阵[N,M,V]作为深度神经网络模型的输入X，其中N为知识文本的数目，M为一个知识文本可以被切分的最大单词数目，V为词特征向量的维数。

5.根据权利要求2所述的基于运维脚本的标签自动化识别方法，其特征在于，所述步骤S4中使用一维卷积神经网络从词向量序列中提取特征并映射序列的内部特征，该卷积神经网络以步骤S3得到的词向量作为输入X，以Lab文件的内容作为输出Y。

6.根据权利要求5所述的基于运维脚本的标签自动化识别方法，其特征在于，所述1维卷积神经网络包括一个输入层，一个卷积层Conv1D，一个池化层MaxPooling1D，一个融合层Concatenate，一个Dropout层，一个Flatten层，一个Dense输出层，其中，

所述池化层Maxpooling1D用于对特征进行压缩；

7.根据权利要求1所述的基于运维脚本的标签自动化识别方法，其特征在于，所述步骤S4中采用sigmoid作为神经网络输出层的激活函数，对于输出层的每个分类标签节点都做一次激活，最终输出每个节点为1的概率。

8.根据权利要求1所述的基于运维脚本的标签自动化识别方法，其特征在于，所述步骤S4中采用binary_crossentropy作神经网络的成本损失函数，使得模型训练过程中不断降低标签的预测值和真实值之间的交叉熵。

9.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1-8中的任一项所述的步骤。