CN115062154A

CN115062154A - 预训练模型训练、文本分类和系统运维的方法和装置

Info

Publication number: CN115062154A
Application number: CN202210830158.6A
Authority: CN
Inventors: 李泽州; 张静; 张宪波
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-09-16

Abstract

本发明公开了预训练模型训练、文本分类和系统运维的方法和装置，涉及计算机技术领域。该预训练模型训练的方法的一具体实施方式包括：从训练样本中提取样本模板，基于自注意力机制构建所述样本模板的词向量和位置向量；通过词性分析确定所述样本模板的词性向量，为每个所述词性分配权重系数以得到所述样本模板的词性权重向量；拼接所述词向量、所述位置向量和所述词性权重向量，以拼接得到的向量作为模型输入、所述训练样本所属类别作为输出训练双向语言模型，得到用于进行文本分类的预训练模型。该实施方式能够在大规模的文本体量上进行无人工或者少人工的干预，充分将文本中不同字符的不同重要性考虑在内，提高分类准确性。

Description

预训练模型训练、文本分类和系统运维的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种预训练模型训练、文本分类和系统运维的方法和装置。

背景技术

对文本进行分类，可以帮助工程师快速判别文本所属分类，并进行相应的操作。传统的对文本进行分类的方法，一般需要根据文本所属类别设置规则字符，并通过对文本中字符与规则字符的匹配进行分类划分。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

当文本数量巨大时，单纯依靠人工划分、规则设定匹配，无法满足工作需求，也容易发生各种漏分或者错分的现象。此外，对于不断产生的新的文本类别，需要人工不断进行新的类别划分操作，造成极大的工作量。

发明内容

有鉴于此，本发明实施例提供一种预训练模型训练、文本分类和系统运维的方法和装置，通过基于自注意力机制构建训练样本的特征向量并采用双向语言模型训练预训练模型，能够将自然语言处理技术应用于文本特征提取，可以在大规模的文本体量上进行无人工或者少人工的干预；通过构建词性权重向量训练预训练模型，能够充分将文本中不同字符的不同重要性考虑在内，可以进一步优化特征向量的构建，从而提高分类准确性。

为实现上述目的，根据本发明实施例的一个方面，提供了一种用于进行文本分类的预训练模型训练方法，包括：

从训练样本中提取样本模板，基于自注意力机制构建所述样本模板的词向量和位置向量；

通过词性分析确定所述样本模板的词性向量，为每个所述词性分配权重系数以得到所述样本模板的词性权重向量；

拼接所述词向量、所述位置向量和所述词性权重向量，以拼接得到的向量作为模型输入、所述训练样本所属类别作为输出训练双向语言模型，得到用于进行文本分类的预训练模型。

可选地，从训练样本中提取样本模板，包括：将各个训练样本中的共有字符作为不变部分，剔除所述训练样本中除所述不变部分以外的字符，得到所述训练样本的样本模板。

可选地，通过词性分析确定所述样本模板的词性向量，包括：通过词性分析确定所述样本模板中各个单词的词性，将所述样本模板中的非原生英文单词的字符和/或预设字符归属为特定词性，得到所述词性向量；其中，所述词性权重向量中所述特定词性的权重系数小于所述词性权重向量中其他词性的权重系数。

根据本发明实施例的第二方面，提供一种文本分类的方法，包括：

从待分类文本中提取文本模板，基于自注意力机制构建所述文本模板的词向量和位置向量；

通过词性分析确定所述文本模板的词性向量，为每个所述词性分配权重系数以得到所述文本模板的词性权重向量；

拼接所述词向量、所述位置向量和所述词性权重向量，将拼接得到的向量输入预训练模型进行分类，得到所述待分类文本的所属类别；其中，所述预训练模型是采用本发明实施例第一方面提供的方法训练得到的。

可选地，从待分类文本中提取文本模板，包括：将各个待分类文本中的共有字符作为不变部分，剔除所述待分类文本中除所述不变部分以外的字符，得到所述待分类文本的文本模板。

可选地，通过词性分析确定所述文本模板的词性向量，包括：通过词性分析确定所述文本模板中各个单词的词性，将所述文本模板中的非原生英文单词的字符和/或预设字符归属为特定词性，得到所述词性向量；其中，所述词性权重向量中所述特定词性的权重系数小于所述词性权重向量中其他词性的权重系数。

可选地，在得到所述待分类文本的所属类别之后，所述方法还包括以下至少之一：利用各个所述待分类文本及其所属类别，对所述预训练模型进行优化；根据所述待分类文本的所属类别更新每个所述词性的权重系数。

根据本发明实施例的第三方面，提供一种系统运维的方法，包括：

接收至少一个类别的系统运维日志，每个所述系统运维日志的所属类别是采用本发明实施例第二方面提供的方法确定的；

响应于为每个所述类别设置类别标签，生成所述系统的监控指标；

依据所述监控指标监控所述系统的运维日志，以获得所述系统的与所述监控指标对应的监控指标数据。

可选地，在获得所述系统的与所述监控指标对应的监控指标数据之后，所述方法还包括：在所述监控指标数据异常的情况下，触发预设的报警策略。

根据本发明实施例的第四方面，提供一种用于进行文本分类的预训练模型训练的装置，包括：

样本模板提取模块，从训练样本中提取样本模板；

样本特征构建模块，基于自注意力机制构建所述样本模板的词向量和位置向量；通过词性分析确定所述样本模板的词性向量，为每个所述词性分配权重系数以得到所述样本模板的词性权重向量；

样本类别确定模块，拼接所述词向量、所述位置向量和所述词性权重向量，以拼接得到的向量作为模型输入、所述训练样本所属类别作为输出训练双向语言模型，得到用于进行文本分类的预训练模型。

可选地，所述样本模板提取模块从训练样本中提取样本模板，包括：将各个训练样本中的共有字符作为不变部分，剔除所述训练样本中除所述不变部分以外的字符，得到所述训练样本的样本模板。

可选地，所述样本特征构建模块通过词性分析确定所述样本模板的词性向量，包括：通过词性分析确定所述样本模板中各个单词的词性，将所述样本模板中的非原生英文单词的字符和/或预设字符归属为特定词性，得到所述词性向量；其中，所述词性权重向量中所述特定词性的权重系数小于所述词性权重向量中其他词性的权重系数。

根据本发明实施例的第五方面，提供一种文本分类的装置，包括：

文本模板提取模块，从待分类文本中提取文本模板；

文本特征构建模块，基于自注意力机制构建所述文本模板的词向量和位置向量；通过词性分析确定所述文本模板的词性向量，为每个所述词性分配权重系数以得到所述文本模板的词性权重向量；

文本类别确定模块，拼接所述词向量、所述位置向量和所述词性权重向量，将拼接得到的向量输入预训练模型进行分类，得到所述待分类文本的所属类别；其中，所述预训练模型是采用本发明实施例第一方面提供的方法训练得到的。

可选地，所述文本模板提取模块从待分类文本中提取文本模板，包括：将各个待分类文本中的共有字符作为不变部分，剔除所述待分类文本中除所述不变部分以外的字符，得到所述待分类文本的文本模板。

可选地，所述文本特征构建模块通过词性分析确定所述文本模板的词性向量，包括：通过词性分析确定所述文本模板中各个单词的词性，将所述文本模板中的非原生英文单词的字符和/或预设字符归属为特定词性，得到所述词性向量；其中，所述词性权重向量中所述特定词性的权重系数小于所述词性权重向量中其他词性的权重系数。

可选地，所述装置还包括参数更新模块，用于：在得到所述待分类文本的所属类别之后，执行以下至少之一：利用各个所述待分类文本及其所属类别，对所述预训练模型进行优化；根据所述待分类文本的所属类别更新每个所述词性的权重系数。

根据本发明实施例的第六方面，提供一种系统运维的装置，包括：

日志接收模块，接收至少一个类别的系统运维日志，每个所述系统运维日志的所属类别是采用本发明实施例第二方面提供的方法确定的；

指标生成模块，响应于为每个所述类别设置类别标签，生成所述系统的监控指标；

指标监控模块，依据所述监控指标监控所述系统的运维日志，以获得所述系统的与所述监控指标对应的监控指标数据。

可选地，所述装置还包括：异常报警模块，用于：在所述监控指标数据异常的情况下，触发预设的报警策略。

根据本发明实施例的第七方面，提供一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例第一或第二或第三方面提供的方法。

根据本发明实施例的第八方面，提供一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现本发明实施例第一或第二或第三方面提供的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过基于自注意力机制构建训练样本的特征向量并采用双向语言模型训练预训练模型，能够将自然语言处理技术应用于文本特征提取，可以在大规模的文本体量上进行无人工或者少人工的干预；通过构建词性权重向量训练预训练模型，能够充分将文本中不同字符的不同重要性考虑在内，可以进一步优化特征向量的构建，从而提高分类准确性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明实施例中用于进行文本分类的预训练模型训练的方法的主要流程的示意图；

图2是本发明可选实施例中提取样本模板的示意图；

图3是本发明可选实施例中构建词性向量和词性权重向量的示意图；

图4是本发明可选实施例中训练双向语言模型的示意图；

图5是本发明实施例中文本分类的方法的主要流程的示意图；

图6是本发明实施例中系统运维的方法的主要流程的示意图；

图7是本发明实施例中用于进行文本分类的预训练模型训练的装置的主要模块的示意图；

图8是本发明实施例中文本分类的装置的主要模块的示意图；

图9是本发明实施例中系统运维的装置的主要模块的示意图；

图10是本发明实施例可以应用于其中的示例性系统架构图；

图11是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

对文本进行分类，可以帮助工程师快速判别文本所属分类，并进行相应的操作。传统的对文本进行分类的方法，一般需要根据文本所属类别设置规则字符，并通过对文本中字符与规则字符的匹配进行分类划分。当文本数量巨大时，单纯依靠人工划分、规则设定匹配，无法满足工作需求，也容易发生各种漏分或者错分的现象。此外，对于不断产生的新的文本类别，需要人工不断进行新的类别划分操作，造成极大的工作量。

随着机器学习的发展，可以借助于机器学习如聚类等方法进行文本分类正逐渐成为一种重要的手段。通过机器学习进行文本分类，虽然可以在一定程度上解决传统文本分类人力密集型的缺点，但是由于机器学习方法如聚类的特征提取能力有限，因此其分类结果会出现不够准确的结果，尤其是对于一些特征不够明确的文本，其聚类结果会出现比较分散的问题，影响分类的准确性。

有鉴于此，本发明实施例提供了一种用于进行文本分类的预训练模型训练的方法。本发明实施例基于自然语言处理技术训练用于进行文本分类的模型。文本中不同字符/单词的重要性可能不同，对于特征向量的构建以及分类结果的影响也就不同，若没有考虑或者专门考虑文本中不同字符的不同权重的影响，会在一定程度上影响分类的准确性。

Bert(Bidirectional Encoder Representations from Transformer)模型是是经过大量各类文本预训练的模型。传统Bert模型的输入是三个向量，即单词词向量(tokenembedding)、位置向量(position embedding)、以及片段向量(segment embedding)。若对文本多分类的任务不涉及到上下片段之间的关联信息，如系统运维日志，则片段向量于文本多分类场景的任务并无实际意义。本发明实施例通过对现有Bert模型的输入进行改进，即替换掉原有的片段向量，增加基于词性分析结果的词性权重向量，实现对文本信息优化提取，并进一步提高文本的分类准确率。

图1是本发明实施例中用于进行文本分类的预训练模型训练的方法的主要流程的示意图，如图1所示，用于进行文本分类的预训练模型训练的方法包括步骤S101、步骤S102和步骤S103。

步骤S101，从训练样本中提取样本模板，基于自注意力机制构建所述样本模板的词向量和位置向量。

对需要进行分类的训练样本进行模板提取，即用若干样本模板代替原始的训练样本。可选地，从训练样本中提取样本模板包括：将各个训练样本中的共有字符作为不变部分，剔除所述训练样本中除所述不变部分以外的字符，得到所述训练样本的样本模板。训练样本是一条包含变量部分和不变部分的半结构化文本。变量部分一般是反应可变部分况的数据(例如系统实施运行情况的数据，如时间、服务器ID等)，不变部分则是可以用来表达该文本的主要构成部分，比如事件名称等。而该不变部分，即是可以用来表达所有具备相同不变部分的训练样本的样本模板。因此，模板提取过程用于将变量部分剔除掉，得到可以用于表达该类训练样本的统一模板，即“求同存异”的过程。模板提取的方法可以根据实际情况进行选择性设定，比如FT-Tree(一种新型的日志模板提取技术)等方法。

图2是本发明可选实施例中提取样本模板的示意图。在图2示出的实施例中，训练样本为系统运维日志，作为训练样本的原始的输入日志一般是由两部分组成，即日志的变量部分(如事件发生时间等)和不变部分(如事件名称等)。图2中左侧部分展示了输入的原始日志构成，右侧部分展示了原始日志经过解析过后得到的日志模板。

从图2所示的日志模板中可以看到，尽管剔除了原始日志中的变量成分(主要是数字)，但所得模板中仍然有部分非原生英文单词的字符。一些这样的字符对于后续日志的分析的意义较小。实际应用过程中，在提取模板过程中可以将这部分字符过滤掉，或者将其替换为特定字符，或者为其设置较小的词性权重。除此以外，对于如“a”、“the”、“at”等不具有或鲜有实际意义的英文单词(这部分单词可以是根据实际经验判定的)，也可以将这部分字符一并过滤掉，或者将其替换为特定字符，或者为其设置较小的词性权重。

如果将上述提及的非原生英文单词和/或不具有或鲜有实际意义的字符过滤掉，则需要额外地添加对应字符匹配规则，这将增加操作人员的工作量。通过将非原生英文单词和/或不具有或鲜有实际意义的字符替换为特定字符并为其设置较小的词性权重，或者直接为其设置较小的词性权重，从而无需额外构建新的匹配规则，通过权重向量的设置(比如设置为0或者极小的数值)，即实现对其忽略的目的。

词向量和位置向量的提取方法可以根据实际情况进行选择性设定，例如，通过调用Bert模型自带的操作命令(或者其他的实现工具)TokenEmbedding和PositionEmbedding实现词向量和位置向量的编码。

步骤S102，通过词性分析确定所述样本模板的词性向量，为每个所述词性分配权重系数以得到所述样本模板的词性权重向量。

可选地，通过词性分析确定所述样本模板的词性向量，包括：通过词性分析确定所述样本模板中各个单词的词性，将所述样本模板中的非原生英文单词的字符和/或预设字符归属为特定词性，将所有单词的词性写成向量的形式，即得到所述词性向量。词性向量的每一个元素，对应于样本模板中的每一个字符的词性属性。实际应用过程中，词性向量的获取方法可以选择性设定，例如通过调用词性分析模型如stanford-core-nlp实现，即：输入日志模板，经过stanford-core-nlp工具输出即为各单词对应的词性属性，得到词性向量。

为词性向量中的每个词性分配词性权重，即将词性向量中每个词性替换为对于的词性权重，得到对于的词性权重向量。每个词性的词性可以根据经验确定，每一类不同的词性可以对应不同的权重数值。对于在模板提取过程中没有剔除的不具有实际意义的单词和字符，可以通过设置其权重系数为0或者极小的数值予以忽略。对于实际分类有较重要参考意义的词性属性，其权重系数可以设置为较大的数值比如0.9或者1.0。实际应用过程中，可以预先配置词性权重系数表(参见下表1)，根据词性权重系数表得到对应的词性权重向量(pos weight embedding)。

表1词性权重系数表

词性(PoS)	权重系数
		NNP(合成名词短语)	1.0
V(动词，包含原形、分词等各形式)	0.5
		NN(名词，包含复数等形式)	0.25
IN(介词)	0.05
		RB(副词)	0.01
JJ(形容词)	0.25
		……	……

图3是本发明可选实施例中构建词性向量和词性权重向量的示意图。如图3所示，假设日志模板输入为ClusterManager*update cluster from*error Timeout*，经过stanford-core-nlp工具得到对应的词性向量为[NNP,VB,NN,IN,NN,NNP]，通过查找词性权重系数表，得到词性权重向量为[1.0,0.5,0.25,005,0.25,1.0]。

步骤S103，拼接所述词向量、所述位置向量和所述词性权重向量，以拼接得到的向量作为模型输入、所述训练样本所属类别作为输出训练双向语言模型，得到用于进行文本分类的预训练模型。

图4是本发明可选实施例中训练双向语言模型的示意图。如图4所示，对步骤S101和步骤S102中得到的每个训练样本的词向量、位置向量、以及词性权重向量进行拼接，得到模型输入，将对应训练样本的所属类别作为模型输出训练双向语言模型，得到用于进行文本分类的预训练模型。

本发明实施例训练得到的预训练模型是改进的Bert模型。传统Bert模型的输入是三个向量，即单词的词向量、位置向量以及片段向量。对不涉及到上下片段之间的关联信息的文本多分类任务，片段向量于多分类场景的任务并无实际意义。本发明实施例对传统Bert模型进行改进，具体地，在训练Bert模型时，将传统Bert模型的输入中的片段向量替换为词性权重向量。本发明实施例通过对构成样本模板的单词的词性分析及其重要性分析，得到词性权重向量，该词性权重向量会通过与样本模板的词向量以及位置向量拼接得到优化，即加大重要成分的权重。本发明实施例基于分类场景出发，用更加有实际意义的词性权重向量替换在实际应用中意义不明显的片段向量，能够实现模型更好的分析和分类。

根据本发明实施例的第二方面，提供一种文本分类的方法。图5是本发明实施例中文本分类的方法的主要流程的示意图，如图5所示，文本分类的方法包括：

步骤S501，从待分类文本中提取文本模板，基于自注意力机制构建所述文本模板的词向量和位置向量；

步骤S502，通过词性分析确定所述文本模板的词性向量，为每个所述词性分配权重系数以得到所述文本模板的词性权重向量；

步骤S503，拼接所述词向量、所述位置向量和所述词性权重向量，将拼接得到的向量输入预训练模型进行分类，得到所述待分类文本的所属类别；其中，所述预训练模型是采用本发明实施例第一方面提供的方法训练得到的。

各个步骤的具体实现方式，请参见前述预训练模型训练的方法的相关介绍，此处不再赘述。

可选地，在得到所述待分类文本的所属类别之后，所述方法还包括以下至少之一：利用各个所述待分类文本及其所属类别，对所述预训练模型进行优化；根据所述待分类文本的所属类别更新每个所述词性的权重系数。Bert模型是经过大量各类文本预训练的模型，其对于文本的解析和理解需要再经过实际应用过程中的微调，即使用部分文本数据对模型进行再训练，得到的模型将会更多的从文本应用的角度出发进行解析和分析，分类结果更加准确。

以下结合一具体实施例，对本发明实施例的文本分类的方法进行示例性说明。本示例中，待分类文本为系统运维日志。日志序列为L：[l₁,l₂,l₃,…,l_n]，其中共包含n条原始日志序列。在对日志进行解析时，利用FT-Tree对原始日志进行解析，得到解析后的各个日志模板，T：[t₁,t₂,t₃,…,t_n]。解析结果可能会有重复的模板出现，因为不同的原始日志解析后可能会得到相同的模板。在词向量及位置向量生成阶段：调用Bert模型功能语句TokenEmbedding以及PositionEmbedding，分别得到日志模板的词向量和位置向量。在词性分析阶段：将T中第i条日志模板输入到stanford-core-nlp模型中，可以得到该条日志模板中各个组成单词的词性向量(pos vector)＝[NNP,VB,NN,IN,NN,NNP,…]。在词性权重向量生成阶段：对应于每一类别的词性，根据人工经验为其分配对应的权重系数。可以由人工经验预先设定各类词性的权重系数表，然后根据单词的词性查得对应的权重系数，并得到对应于每一条日志模板Ti的词性权重向量w_i＝[1.0,0.5,0.25,0.01,0.25,1.0,…]。在输入向量拼接阶段：将上述三个输入向量，即词向量、位置向量以及词性权重向量相加拼接得到输入向量。最后，将上述输入向量输入至Bert模型中，经过模型的解析和分析，经过线性分类器输出每一条日志对应的所属分类。同时，Bert模型经过迭代更新，完成微调优化。

本发明实施例的文本分类的方法可以应用于对系统运维日志进行分类。对计算机运行过程中生成的日志进行分类，可以帮助工程师快速判别日志所属分类，并进行相应的运维操作。传统的对日志进行分类的方法，一般需要根据日志所属类别设置规则字符，并通过对日志中字符与规则字符的匹配进行分类划分。随着机器学习的发展，借助于机器学习如聚类等方法进行日志分类正逐渐成为一种重要的手段。此外，由于日志本身也是文本的这一属性，利用自然语言处理技术进行日志分类也成为了炙手可热的研究点，即AIOps(智能运维)。然而，应用传统的规则匹配手段进行日志分类，需要人工进行类别筛选划分、规则字符的设定、以及匹配工作。现代计算机业务运行生成的日志数量是数亿万计的，因此单纯依靠人工划分、规则设定匹配，是无法满足日常运维工作的需求，也容易发生各种漏分或者错分的现象。此外，对于不断产生的新的日志类别，需要人工不断进行新的类别划分操作，造成极大的工作量。通过机器学习进行日志分类，虽然可以在一定程度上解决传统日志分类人力密集型的缺点，但是由于机器学习方法如聚类的特征提取能力有限，因此其分类结果会出现不够准确的结果，尤其是对于一些特征不够明确的日志，其聚类结果会出现比较分散的问题，影响分类的准确性。现在基于自然语言处理技术做日志分类的模型，虽然很好地应用了自然语言处理技术对于日志特征提取，但是由于日志中不同字符/单词的重要性不同，因此对于特征向量的构建以及分类结果的影响也就不同。现有技术大多没有考虑或者专门考虑日志中不同字符的不同权重的影响，因此也会在一定程度上影响分类的准确性。

本发明实施例对传统Bert模型进行改进，将传统Bert模型的输入中的片段向量替换为词性权重向量。本发明实施例通过对构成样本模板的单词的词性分析及其重要性分析，得到词性权重向量，该词性权重向量会通过与样本模板的词向量以及位置向量拼接得到优化，即加大重要成分的权重。本发明实施例基于分类场景出发，用更加有实际意义的词性权重向量替换在实际应用中意义不明显的片段向量，能够实现模型更好的分析和分类。本发明实施例通过自然语言处理技术对运维日志聚类能够帮助运维工程师熟悉日志全貌，以便从中挑选出影响到线上服务的日志问题类别和配置监控，从而将运维专家排查日志问题的经验积累下来，从日志角度发现指标层面不能发现的故障问题，进而提升故障发现的准确性与覆盖度，保证系统稳定运行。

根据本发明实施例的第三方面，提供一种系统运维的方法。图6是本发明实施例中系统运维的方法的主要流程的示意图，如图6所示，系统运维的方法包括：

步骤S601，接收至少一个类别的系统运维日志，每个所述系统运维日志的所属类别是采用本发明实施例第二方面提供的方法确定的；

步骤S602，响应于为每个所述类别设置类别标签，生成所述系统的监控指标；

步骤S603，依据所述监控指标监控所述系统的运维日志，以获得所述系统的与所述监控指标对应的监控指标数据。

示例性地采用前述文本分类的方法对各个系统运维日志进行分类，得到各个类别的日志集合，例如类别1、类别2、……。该类别仅反映其对于的各个日志具有某类共性，例如某一类别的日志均表明服务器宕机、某一类别的日志均表明磁盘使用率过高。运维人员可以根据日志内容为各个类别设置类别标签，例如类别1的类别标签为服务器宕机、类别2的类别标签为磁盘使用率过高、……。响应于为每个类别设置类别标签，本发明实施例可以生成系统的监控指标，例如监控系统的磁盘使用率。本发明实施例还可以生成监控策略，例如每间隔一定时间获取监控指标的指标数据，或者周期性获取系统在对应周期内的指标均值等。依据监控指标对系统的运维日志进行监控，可以获得所述系统的与所述监控指标对应的监控指标数据。

本发明实施例通过自然语言处理技术对运维日志聚类能够帮助运维工程师熟悉日志全貌，从中挑选出影响到线上服务的日志问题类别，配置监控，将运维专家排查日志问题的经验积累下来，从日志角度发现指标层面不能发现的故障问题，进而提升故障发现的准确性与覆盖度，保证系统稳定运行。

实际应用过程中，在获得所述系统的与所述监控指标对应的监控指标数据之后，在所述监控指标数据异常的情况下，还可以触发预设的报警策略，例如发出语音提醒信息、文字提醒信息、提醒邮件等。

根据本发明实施例的第四方面，提供一种实现前述用于进行文本分类的预训练模型训练的方法的装置。图7是本发明实施例中用于进行文本分类的预训练模型训练的装置的主要模块的示意图，如图7所示，用于进行文本分类的预训练模型训练的装置700包括：

样本模板提取模块701，从训练样本中提取样本模板；

样本特征构建模块702，基于自注意力机制构建所述样本模板的词向量和位置向量；通过词性分析确定所述样本模板的词性向量，为每个所述词性分配权重系数以得到所述样本模板的词性权重向量；

样本类别确定模块703，拼接所述词向量、所述位置向量和所述词性权重向量，以拼接得到的向量作为模型输入、所述训练样本所属类别作为输出训练双向语言模型，得到用于进行文本分类的预训练模型。

根据本发明实施例的第五方面，提供一种实现前述文本分类的方法的装置。图8是本发明实施例中文本分类的装置的主要模块的示意图，如图8所示，文本分类的装置800包括：

文本模板提取模块801，从待分类文本中提取文本模板；

文本特征构建模块802，基于自注意力机制构建所述文本模板的词向量和位置向量；通过词性分析确定所述文本模板的词性向量，为每个所述词性分配权重系数以得到所述日志模板的词性权重向量；

文本类别确定模块803，拼接所述词向量、所述位置向量和所述词性权重向量，将拼接得到的向量输入预训练模型进行分类，得到所述待分类文本的所属类别；其中，所述预训练模型是采用本发明实施例第一方面提供的方法训练得到的。

可选地，所述装置还包括参数更新模块(图8中未示出)，用于：在得到所述待分类文本的所属类别之后，执行以下至少之一：利用各个所述待分类文本及其所属类别，对所述预训练模型进行优化；根据所述待分类文本的所属类别更新每个所述词性的权重系数。

根据本发明实施例的第六方面，提供一种实现前述系统运维的方法的装置。图9是本发明实施例中系统运维的装置的主要模块的示意图，如图9所示，系统运维的装置900包括：

日志接收模块901，接收至少一个类别的系统运维日志，每个所述系统运维日志的所属类别是采用本发明实施例第二方面提供的方法确定的；

指标生成模块902，响应于为每个所述类别设置类别标签，生成所述系统的监控指标；

指标监控模块903，依据所述监控指标监控所述系统的运维日志，以获得所述系统的与所述监控指标对应的监控指标数据。

可选地，所述装置还包括：异常报警模块(图9中未示出)，用于：在所述监控指标数据异常的情况下，触发预设的报警策略。

根据本发明实施例的第七方面，提供一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

图10示出了可以应用本发明实施例的预训练模型训练、文本分类和系统运维的方法或预训练模型训练、文本分类和系统运维的装置的示例性系统架构1000。

如图10所示，系统架构1000可以包括终端设备1001、1002、1003，网络1004和服务器1005。网络1004用以在终端设备1001、1002、1003和服务器1005之间提供通信链路的介质。网络1004可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1001、1002、1003通过网络1004与服务器1005交互，以接收或发送消息等。终端设备1001、1002、1003上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备1001、1002、1003可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器1005可以是提供各种服务的服务器，例如对用户利用终端设备1001、1002、1003所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的预训练模型训练、文本分类和系统运维的方法一般由服务器1005执行，相应地，预训练模型训练、文本分类和系统运维的装置一般设置于服务器1005中。

应该理解，图10中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图11，其示出了适于用来实现本发明实施例的终端设备的计算机系统1100的结构示意图。图11示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(CPU)1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中，还存储有系统1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括样本模板提取模块、样本特征构建模块和样本类别确定模块；或者，一种处理器包括文本模板提取模块、文本特征构建模块和文本类别确定模块；或者，一种处理器包括日志接收模块、指标生成模块和指标监控模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，样本模板提取模块还可以被描述为“依据所述监控指标监控所述系统的运维日志的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

从训练样本中提取样本模板，基于自注意力机制构建所述样本模板的词向量和位置向量；通过词性分析确定所述样本模板的词性向量，为每个所述词性分配权重系数以得到所述样本模板的词性权重向量；拼接所述词向量、所述位置向量和所述词性权重向量，以拼接得到的向量作为模型输入、所述训练样本所属类别作为输出训练双向语言模型，得到用于进行文本分类的预训练模型；或者，

从待分类文本中提取文本模板，基于自注意力机制构建所述文本模板的词向量和位置向量；通过词性分析确定所述文本模板的词性向量，为每个所述词性分配权重系数以得到所述文本模板的词性权重向量；拼接所述词向量、所述位置向量和所述词性权重向量，将拼接得到的向量输入预训练模型进行分类，得到所述待分类文本的所属类别；其中，所述预训练模型是采用本发明实施例第一方面提供的方法训练得到的；或者，

接收至少一个类别的系统运维日志，每个所述系统运维日志的所属类别是采用本发明实施例第二方面提供的方法确定的；响应于为每个所述类别设置类别标签，生成所述系统的监控指标；依据所述监控指标监控所述系统的运维日志，以获得所述系统的与所述监控指标对应的监控指标数据。

根据本发明实施例的技术方案，通过基于自注意力机制构建训练样本的特征向量并采用双向语言模型训练预训练模型，能够将自然语言处理技术应用于文本特征提取，可以在大规模的文本体量上进行无人工或者少人工的干预；通过构建词性权重向量训练预训练模型，能够充分将文本中不同字符的不同重要性考虑在内，可以进一步优化特征向量的构建，从而提高分类准确性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种用于进行文本分类的预训练模型训练的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，从训练样本中提取样本模板，包括：将各个训练样本中的共有字符作为不变部分，剔除所述训练样本中除所述不变部分以外的字符，得到所述训练样本的样本模板。

3.如权利要求1所述的方法，其特征在于，通过词性分析确定所述样本模板的词性向量，包括：通过词性分析确定所述样本模板中各个单词的词性，将所述样本模板中的非原生英文单词的字符和/或预设字符归属为特定词性，得到所述词性向量；其中，所述词性权重向量中所述特定词性的权重系数小于所述词性权重向量中其他词性的权重系数。

4.一种文本分类的方法，其特征在于，包括：

拼接所述词向量、所述位置向量和所述词性权重向量，将拼接得到的向量输入预训练模型进行分类，得到所述待分类文本的所属类别；其中，所述预训练模型是采用权利要求1-3任一所述的方法训练得到的。

5.如权利要求4所述的方法，其特征在于，从待分类文本中提取文本模板，包括：将各个待分类文本中的共有字符作为不变部分，剔除所述待分类文本中除所述不变部分以外的字符，得到所述待分类文本的文本模板。

6.如权利要求4所述的方法，其特征在于，通过词性分析确定所述文本模板的词性向量，包括：通过词性分析确定所述文本模板中各个单词的词性，将所述文本模板中的非原生英文单词的字符和/或预设字符归属为特定词性，得到所述词性向量；其中，所述词性权重向量中所述特定词性的权重系数小于所述词性权重向量中其他词性的权重系数。

7.如权利要求4-6任一所述的方法，其特征在于，在得到所述待分类文本的所属类别之后，所述方法还包括以下至少之一：利用各个所述待分类文本及其所属类别，对所述预训练模型进行优化；根据所述待分类文本的所属类别更新每个所述词性的权重系数。

8.一种系统运维的方法，其特征在于，包括：

接收至少一个类别的系统运维日志，每个所述系统运维日志的所属类别是采用权利要求4-7任一所述的文本分类方法确定的；

9.如权利要求8所述的方法，其特征在于，在获得所述系统的与所述监控指标对应的监控指标数据之后，所述方法还包括：在所述监控指标数据异常的情况下，触发预设的报警策略。

10.一种用于进行文本分类的预训练模型训练的装置，其特征在于，包括：

样本模板提取模块，从训练样本中提取样本模板；

11.一种文本分类的装置，其特征在于，包括：

文本模板提取模块，从待分类文本中提取文本模板；

文本类别确定模块，拼接所述词向量、所述位置向量和所述词性权重向量，将拼接得到的向量输入预训练模型进行分类，得到所述待分类文本的所属类别；其中，所述预训练模型是采用权利要求1-3任一所述的方法训练得到的。

12.一种系统运维的装置，其特征在于，包括：

日志接收模块，接收至少一个类别的系统运维日志，每个所述系统运维日志的所属类别是采用权利要求4-7任一所述的方法确定的；

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3、或4-7、或8-9中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-3、或4-7、或8-9中任一所述的方法。