CN112632990B

CN112632990B - 一种标签的获取方法、装置、设备及可读存储介质

Info

Publication number: CN112632990B
Application number: CN202011619532.5A
Authority: CN
Inventors: 陈文建; 董秀杰; 闵佳; 吕程
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-04-12
Anticipated expiration: 2040-12-31
Also published as: CN112632990A

Abstract

本申请实施例提供了一种标签的获取方法、装置、设备及可读存储介质，从运维数据中提取关键词，确定关键词的权重，依据权重以及短语在运维数据中的词频，从短语中获取候选标签，依据从对运维数据的历史评价数据中，获取的候选标签的属性信息筛选标签。关键词以及短语为两个维度的对运维数据的表达项，关键词的权重能够表征作为表达项的关键词在运维数据中的重要程度，且短语的词频能够表征作为表达项的短语在运维数据中的重要程度，所以，依据关键词的权重以及短语在运维数据中的词频，从短语中获取的候选标签对于运维数据的重要程度高，又因为历史评价数据具有客观性和准确性，所以，筛选得到的标签适用于对于应用系统的分析和评价且准确度高。

Description

一种标签的获取方法、装置、设备及可读存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种标签的获取方法、装置、设备及可读存储介质。

背景技术

目前，针对应用系统运行状况的分析与评价仍然缺少直观有效的方法，使用标签以及标签值描述应用系统的总体运行情况，可以解决应用系统分析评价困难的难题，但是，目前“用户画像”所定义的用户标签不适用于对应用系统的描述，如何定义用于描述应用系统的标签是应用系统分析与评价过程中亟待解决的难题。

发明内容

本申请提供了一种标签的获取方法、装置、设备及可读存储介质，目的在于但不限于获取适用于描述应用系统的标签，如下：

一种标签的获取方法，包括：

从运维数据中提取关键词；

确定所述关键词的权重；

其中，所述确定所述关键词的权重包括：从所有所述关键词中，提取非独立关键词，所述非独立关键词为具有关联词的关键词，所述关联词为与所述非独立关键词具有预设的关联关系的关键词；

至少依据非独立关键词在所述运维数据中的词频以及所述关联词在所述运维数据中的词频，计算所述非独立关键词的权重；

至少依据独立关键词在所述运维数据中的词频，计算所述独立关键词的权重，所述独立关键词为除所述非独立关键词之外的关键词；

依据所述权重以及短语在所述运维数据中的词频，从所述短语中获取候选标签，所述短语由多个所述关键词构成；

从对所述运维数据的历史评价数据中，获取所述候选标签的属性信息；

依据所述属性信息，从所述候选标签中筛选标签。

可选地，依据所述权重以及短语在所述运维数据中的词频，从所述短语中获取候选标签，包括：

获取候选短语，所述候选短语由预设数量的目标关键词组成，所述目标关键词为所述权重大于预设权重阈值的所述关键词；

如果所述候选短语在所述运维数据中的词频大于预设词频阈值，将所述候选短语作为所述候选标签。

可选地，从对所述运维数据的历史评价数据中，获取所述候选标签的属性信息，包括：

从所述历史评价数据中获取所述候选标签的相似短语、以及所述相似短语的属性信息；

将所述相似短语的属性信息，作为所述候选标签的属性信息。

可选地，依据所述属性信息，从所述候选标签中筛选标签，包括：

将所述候选标签的属性信息输入预设的分类模型，得到所述分类模型输出的分类结果，所述分类结果指示所述候选标签所属的功能分类或者不属于任何所述功能分类；

将所述分类结果指示所述候选标签所属的功能分类的候选标签，作为所述标签。

可选地，属性信息包括：

数据来源、计算规则、取值内容和特征表示参数的至少一项。

可选地，在依据所述属性信息，从所述候选标签中筛选标签之后，还包括：

对应存储所述标签、所述标签的属性信息、以及所述标签的所述分类结果。

一种标签的获取装置，包括：

词提取模块，用于从运维数据中提取关键词；

权重计算模块，用于确定所述关键词的权重；

候选标签获取模块，用于依据所述权重以及短语在所述运维数据中的词频，从所述短语中获取候选标签，所述短语由多个所述关键词构成；

标签信息获取模块，用于从对所述运维数据的历史评价数据中，获取所述候选标签的属性信息；

标签筛选模块，用于依据所述属性信息，从所述候选标签中筛选标签。

一种标签的获取设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的标签的获取方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的标签的获取方法的各个步骤。

由上述技术方案可以看出，本申请实施例提供的标签的获取方法、装置、设备及可读存储介质，依据关键词的权重以及短语在运维数据中的词频，从短语中获取候选标签，并依据从对运维数据的历史评价数据中获取的候选标签的属性信息，筛选标签。其中，关键词从运维数据中获取，且短语由至少两个关键词组成，可以理解的是，关键词以及短语为两个维度的对运维数据的表达项，由于，关键词的权重能够表征作为表达项的关键词在运维数据中的重要程度，且短语的词频能够表征作为表达项的短语在运维数据中的重要程度，所以，依据关键词的权重以及短语在运维数据中的词频，从短语中获取的候选标签对于运维数据的重要程度高，以候选标签作为运维数据的表达项具有准确性和客观性，可以理解的是，历史评价数据具有客观性和准确性，所以，本方法依据从历史评价数据中提取的候选标签的属性信息筛选标签，进一步提高了标签的准确性和客观性，适用于对于应用系统的分析和评价。综上，本方法能够定义用于描述应用系统的标签，且标签的准确度高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种标签的获取方法的具体实施方式的流程示意图；

图2为本申请实施例提供的一种获取关键词的权重的具体实现方法的流程图；

图3为本申请实施例提供的一种分类规则的示意图；

图4为本申请实施例提供的一种功能分类的配置过程示意图；

图5为本申请实施例提供的一种功能分类的具体划分示意图；

图6为本申请实施例提供的一种标签库的示意图；

图7为本申请实施例提供的一种标签库的自动化构建过程的流程示意图；

图8为本申请实施例提供的一种标签的获取方法的流程示意图；

图9为本申请实施例提供的一种标签的获取装置的流程示意图；

图10为本申请实施例提供的一种标签的获取设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的标签的获取方法应用于但不限于标签库的构建过程，其中，标签库至少包括适用于描述应用系统的多个标签以及标签的其他信息，图1示例了本申请实施例提供的标签的获取方法的具体实现流程，具体包括S101～S113。

S101、获取运维数据。

本实施例中，可选的一种运维数据的获取方法为从运维数据仓库中获取应用系统相关的所有运行与管理数据，运维数据包括但不限于监控告警日志、运行日志、运维日志、操作日志、工单数据、配置管理数据、运营数据、以及系统评价数据。

需要说明的是，运维数据仓库为预先构建的数据库，用于实时采集并存储涉及应用系统服务、负载均衡、中间件、操作系统、数据库、主机、网络、存储、机房等各个维度的运维数据，运维数据仓库的构建方法以及数据获取方法可以参见现有技术。

S102、对运维数据进行预处理。

本实施例中，数据预处理的过程包括但不限于对运维数据进行数据清洗、标准化、质量检查、格式转换、以及数据缺失处理中任一项或多项，由此实现数据的文本化，进一步经过预处理后的运维数据具体为大量的数据文件。

S103、对预处理后的运维数据进行分词，得到关键词。

本实施例中，为描述方便，将预处理后的运维数据作为第一数据，对第一数据进行分词的具体过程可以包括：对第一数据中提取的文本数据，过滤停用词后，依据预设的分词词典，基于nltk(Natural Language Toolkit，自然语言处理工具集)分词工具和/或结巴分词工具进行文本分词处理，将分词处理后的分词作为关键词，并构建词典库。

可以理解的是，词典库中包括的每一关键词依据预处理后的运维数据关键词得到，则，每一关键词可以作为运维数据的特征表示，也即词典库可以作为运维数据的特征全集。

S104、获取每一关键词的权重。

本实施例中，至少依据关键词在第一数据中的词频，获取关键词的权重，具体的一种获取关键词的权重的方法可以参见下述实施例中图2所示的流程。需要说明的是，关键词的权重越大，关键词对于第一数据的重要程度越大。

S105、将权重大于预设权重阈值的关键词作为目标关键词。

S106、获取候选短语。

本实施例中，候选短语包括预设数量的目标关键词，预设数量与候选短语的关键词总数量的比值为预设比值，也即预设数量与候选短语中关键词总数量正相关。

S107、若候选短语在第一数据中的词频大于预设词频阈值，则将候选短语作为候选标签。

需要说明的是，候选短语在第一数据中的词频的计算方法可以参见现有技术，例如：将候选短语在第一数据中出现的次数与所有候选短语在第一数据中出现的总次数的比值作为候选短语在第一数据中的词频。

综上，候选标签满足条件1～3：1、候选标签包括至少两个关键词。2、任一候选标签中的每一关键词的权重均大于预设权重阈值。3、候选标签在运维数据中的词频大于预设词频阈值。需要说明的是，S104～S106为本实施例提供的可选的一种依据关键词的权重以及短语在运维数据中的词频，确定满足条件1～3的候选标签的方法，其中短语由至少两个关键词组成，由关键词获取短语的方法具体可以为通过预设的LDA(Latent DirichletAllocation，隐含狄利克雷分布)主题模型将关键词组合成短语，具体可以参见现有技术。

S108、从运维数据的历史评价数据中获取候选标签的相似短语、以及相似短语的属性信息。

本实施例中，历史评价信息包括用于评价运维数据的指标短语，以及指标短语的属性信息，属性信息至少包括：数据来源、计算规则、取值内容和特征表示参数的至少一项，其中，特征表示参数包括特征和特征的计算方法，计算规则包括标签提取方法和标签提取方式(例如决策树法或统计分析法)，标签提取方法为标签提取方式的具体实现方式。

例如，指标短语包括交易系统告警，交易系统告警的属性信息包括：数据来源：工单数据，计算规则：统计分析法，取值内容：一般，特征表示参数：告警次数。

本实施例中，获取相似短语的一种可选的方法包括：将与候选标签的语义相似度大于预设相似度阈值的指标短语作为候选标签的相似短语。例如，则指标短语“交易系统告警”与候选标签“交易告警”的语义相似度大于预设相似度阈值，将“交易系统告警”作为“交易告警”的相似短语。

需要说明的是，历史评价信息的获取方法以及计算语义相似度的具体方法可以参见现有技术。

S109、将相似短语的属性信息，作为候选标签的属性信息。

S110、将候选标签的属性信息输入预设的分类模型，得到分类模型输出的分类结果。

本实施例中，分类模型输出的分类结果指示候选标签所属的功能分类或者不属于任何功能分类。可选地，功能分类包括功能效用、容量、连续性、安全性、可用性、基本情况六类，具体的，每一类功能分类包括多个子分类。

需要说明的是，分类模型包括依据预设的分类规则构建的U(Utility，功用)&W(Warranty，保障)与专家模型(简称为U&W专家模型)，分类规则包括属性信息集合与功能分类的对应关系，如图3所示，分类规则包括：功能分类与数据来源、计算规则、取值内容、和特征表示参数(图3中以特征表示示例)的集合(图3中以能力分类示例)的对应关系，例如，第一属性信息集合包括：数据来源：工单数据，计算规则：统计分析法，取值内容：一般，特征表示参数：告警次数，第一属性信息集合对应的功能分类包括安全性。可选地，对应关系为多对多，具体分类规则的获取方法参见现有技术。

本实施例中，若候选标签的属性信息属于至少一个属性信息集合，分类模型将候选标签的属性信息属于的属性信息集合对应的功能分类作为分类结果输出，若候选标签的属性信息不属于任意属性信息集合，输出预设的标识，表示候选标签不属于任何功能分类。

需要说明的是，分类模型依据专家经验和历史评价数据预先配置，具体可以参见下述实施例对图4的介绍。

S111、将分类结果指示候选标签所属的功能分类的候选标签，作为标签。

S112、对应存储标签、标签的属性信息、以及标签的功能分类，生成标签库。

需要说明的是，标签库中存储所有标签、标签的属性信息、标签的功能分类的对应关系，可选的，存储方式可以为以功能分类为划分的表格，图6示例了标签库中的功能分类为功能效用的标签与标签的属性信息的对应表格，本实施例对此不做赘述。

S113、将分类结果指示候选标签不属于任何功能分类的候选标签删除。

需要说明的是，图1所示的构建标签库的方法可以具体应用在多个可选的场景中，图7示例了一种标签库的自动化构建过程的流程示意图，具体包括：1、从运维数据仓库中获取运维数据。2、利用自然语言处理引擎生成标签原型(即图1所示的候选标签)。3、U&W与专家模型获取规范化和可用性标签。4、构建使用标签库。需要说明的是，图7所示的各个过程的具体实现方法可以参见图1，对此不做赘述。

由上述技术方案可以看出，本申请实施例提供应用于构建标签库的标签获取方法包括但不限于下述有益效果：

第一、本方法依据关键词的权重以及短语在运维数据中的词频，从短语中获取候选标签，并依据从对运维数据的历史评价数据中获取的候选标签的属性信息，筛选标签。其中，关键词从运维数据中获取，且短语由至少两个关键词组成，可以理解的是，关键词以及短语为两个维度的对运维数据的表达项，由于，关键词的权重能够表征作为表达项的关键词在运维数据中的重要程度，且短语的词频能够表征作为表达项的短语在运维数据中的重要程度，所以，依据关键词的权重以及短语在运维数据中的词频，从短语中获取的候选标签对于运维数据的重要程度高，以候选标签作为运维数据的表达项具有准确性和客观性，可以理解的是，历史评价数据具有客观性和准确性，所以，本方法依据从历史评价数据中提取的候选标签的属性信息筛选标签，进一步提高了标签的准确性和客观性，适用于对于应用系统的分析和评价。

综上，本申请实施例提供的一种标签的获取方法能够定义用于描述应用系统的标签，且标签的准确度高。

第二、本方法依据分类模型的分类结果获取标签的功能分类，分类模型依据预设的分类规则制定，分类规则的制定过程结合运维经验与历史评价信息，准确性高，预设的功能分类能够从不同维度描述应用系统，可见，本方法遵循了ITIL的理论依据，又具有实际的专家经验和历史评价验证，极大地保障了标签库的适应性和扩展性能力。

第三、本方法在获取标签之后，对应存储标签、标签的属性信息、以及标签的分类结果，构建标签库，实现自动化构建标签库的目的。通过标签库的制定，使得应用系统的标签提取更为简便，也为刻画应用系统总体运行情况提供了丰富的语义化标签，从而便于对应用系统状态的理解，辅助IT运营决策。

图2为本申请实施例提供的一种获取关键词的权重的具体实现方法的流程图，如图2所示，具体可以包括：

S201、将词典库中的所有关键词划分为独立关键词以及关键词集合。

本实施例中，划分为独立关键词以及关键词集合的方法包括：

若多个关键词在第一数据中连续出现的次数或频率大于预设阈值，将多个关键词按照连续出现时的前后顺序组成关键词集合，也即每一关键词集合包括有序的至少两个关键词。并将属于至少一个关键词集合的关键词作为非独立关键词，将不属于任意关键词集合的关键词作为独立关键词。

S202、利用预设的第一权重计算模型计算每一独立关键词的TF-IDF值。

具体地，第一权重计算模型依据TF-IDF(TermFrequency-inverse DocumentFrequency，词频-逆向文件频率)算法建立。

本实施例中，记第一数据包括的文件总数量为|D|，其中，任意一个文件为d_j，且j∈[1,|D|]，词典库中的关键词总数量为N，其中，任意一个关键词为t_k，k∈[1,N]。

以独立关键词为t_i(也即k＝i)为例，第一权重计算模型计算独立关键词t_i的权重的方法可以参见公式(1)：

公式(1)中，WT(t_i)表示独立关键词t_i的TF-IDF值，n_i,j表示在文件d_j中独立关键词t_i出现的次数，∑_kn_k,j表示在文件d_j中字典库中所有关键词出现的次数总和，|{j:t_i∈d_j}|表示包含独立关键词t_i的文件的数目。

S203、依据独立关键词的TF-IDF值确定独立关键词的权重。

可选地，以独立关键词t_i为例，依据独立关键词t_i的TF-IDF值确定独立关键词t_i的权重的方法为：直接将独立关键词t_i的TF-IDF值WT(t_i)作为独立关键词t_i的权重。

S204、利用预设的第二权重计算模型计算每一关键词集合中的非独立关键词的Rank值。

具体地，将关键词集合中的每一非独立关键词作为一个结点，并获取每两个结点之间的边的权重，需要说明的是，获取边的权重的方法可以参见现有技术。

本实施例中，第二权重计算模型依据TextRank(文本排名)算法预先建立，以关键词集合E为例，关键词集合E包括m个非独立关键词，每一非独立关键词为一个结点，则将关键词集合表示为：E＝{V₁,V₂,...,V_r,...V_m}，其中，r∈[1,m]，利用第二权重计算模型计算结点V_r的权重的方法参见公式(2)：

公式(2)中，WS(V_r)表示结点V_r的Rank值，d为预设的阻尼系数，In(V_r)表示结点V_r的前驱结点集合，也即E中位于结点V_r之前的结点的集合，Out(V_h)表示节点V_h的后继结点集合，也即E中位于结点V_h之后的结点的集合，w_hr表示结点V_h和V_r之间的边的权重。

S205、依据非独立关键词的Rank值确定非独立关键词的权重。

具体地，以非独立关键词V_r为例，若包含V_r的关键词集合的数量大于1，则从V_r的多个Rank值中，获取最大值作为V_r的权重，或者，将V_r的多个Rank值的加权和作为V_r的权重。

若包含V_r的关键词集合的数量为1，则将V_r的Rank值的作为V_r的权重。

由图2所示的流程可以看出，本实施例至少依据关键词的词频确定关键词的权重，具体的，依据独立关键词(即第二类关键词)的词频和文件频率确定独立关键词的权重，并且，依据非独立关键词(即第一类关键词)的关联信息确定非独立关键词的权重。每一关键词的权重能够表征关键词在运维数据中的重要程度。原因在于：

1、独立关键词的词频指示独立关键词在运维数据中的出现次数和所有关键词出现次数的比值，表征独立关键词在所有关键词中出现概率，独立关键词的文件频率独立关键词所属的文件的数量与所有文件的数量的比值。，表征独立关键词在文件中出现的概率，所以，独立关键词的权重能够表征独立关键词在运维数据中出现的概率。

非独立关键词的关联信息不仅能够指示非独立关键词在所有关键词中出现概率，还能够指示与非独立关键词相关的关键词在所有关键词中出现概率，由此，确定的非独立关键词的权重能够指示该非独立关键词在运维数据中出现的概率。

可以理解的是，关键词概率越大，则重要程度越高，可见本方法通过至少依据词频确定关键词的权重，将关键词的重要程度量化，权重越大，关键词的重要程度越高。

需要说明的是，图2仅示例了获取每一关键词的权重的可选的一种具体方法，本方法中获取关键词的权重的方法包括多种，例如，直接依据每一关键词的TF-IDF值，确定每一关键词的权重，对此本实施例不做限定。

图4示例了一种功能分类的配置过程，参见图4所示的示意图，功能分类满足U&W专家模型中预设的功用条件和/或保障条件，可以理解的是，功能分类满足功用条件和/或保障条件至少一项，其中，保障条件包括：可用性、容量、连续性、安全性中至少一项，功用条件包括：性能支持或限制移除。

具体地，U&W专家模型依据预设的功用条件和预设的保障条件构建，用于获取能够描述系统的功能分类，具体地，U&W专家模型将系统提供服务的能力分为功用和保障，其中功用是指应用系统能实现预期的正向结果，消除或降低应用系统的功能限制。保障指应用系统能提供足够的可用性、足够的容量、可靠的连续性或安全性。也即，满足功用条件的功能分类(也称为来源于功用的功能分类)用于描述应用系统的功能(也即图示的符合目的)，满足保障条件的功能分类(也称为来源于保障的功能分类)用于描述应用系统交付功能的过程(也即图示的适合使用)。

可选地，功能分类包括功能效用、容量、连续性、安全性、可用性、基本情况六类，具体的，每一类功能分类包括多个子分类，图5示例了一种功能分类地具体划分示例图，具体可以包括：

(1)基本情况

系统基本情况类标签是对系统基本信息的全面描述，能够直观的描述系统的基本信息，对于系统分析和评价具有重要意义。系统基本情况类标签从系统配置库中直接抽取，如系统名称、部署地点、等保等级等，部分可能发生变化的标签从系统日志、运维日志中提取，如系统变更实施人、数据库版本等。

(2)功能效用

功能效用类标签来源于U&W专家模型中的功用，该类标签综合了性能限制和限制移除相关的特征，用于描述系统达到的效果，包括系统运行情况、系统服务能力、交易处理效率等标签。

(3)容量

容量类标签来源于U&W专家模型中的保障，用于描述应用系统为达到某种效果在体量及资源占用方面的相关特征，包括CPU使用率、系统资源使用率标签。

(4)连续性

连续性标签来源于U&W专家模型中的保障，用于描述系统能够连续提供服务的能力和水平，包括问题频繁度、问题解决效率、变更实施效率、应急响应效率等。

(5)可用性

可用性标签来源于U&W专家模型中的保障，用于描述系统能够满足正常使用要求的程度，包括可维护性、系统可用率、运维支持度等标签。

(6)安全性

安全性标签来源于U&W专家模型中的保障，用于描述系统能够辨识隐患、降低风险的能力，包括恶意访问风险、异常登录情况等标签。

需要说明的是，U&W专家模型中的功能分类以及分类规则依据运维经验与历史评价信息构建，具体构建的方法参见现有技术。

进一步需要说明的是，由于应用系统的价值体现来源于功用和保障的综合效应，所以功能分类对于描述应用系统能够创造价值。

需要说明的是，图1所示的流程为获取标签的方法应用于构建标签库的场景下的一种具体实施方法，在实际应用中，还包括其它的具体实现方法。

例如，在构建初始的标签库之后，可以对标签库进行添加标签、删除标签、修改标签的任一项，例如，添加标签包括将新的候选标签、新的候选标签的属性信息以及新的候选标签的功能分类添加至标签库。

在可选的一种应用场景下，标签库会根据应用系统的实际情况、标签应用效果反馈以及业务需求等因素进行修改。标签库的管理主要包括增加、删除、更新等几个方面，具体包括：(1)标签增加：可根据具体的业务需求或系统实际运行情况增加新的标签，可选地，将新的标签、标签的属性信息、标签的功能分类对应存储至标签库，新的标签的获取方法参见图1所示的流程。(2)标签删除：在实际应用过程中，需要逐渐淘汰标签库中使用频率低、评价效果差的标签，严控标签质量。(3)标签更新：在实际应用过程中，标签的属性信息会随着业务需求和实践效果而发生变化，对于更新后能够提升标签评价准确度的标签，需及时进行更新，保证标签的有效性。

再例如，获取候选标签的实现方法包括多种，S105～S107仅为一种可选的获取候选标签的具体实现方法，再例如，S112～S113为可选的步骤。

综上所述，本申请实施例提供的标签的获取方法可以概括为图8所示的一种标签的获取方法流程示意图，如图8所示，本方法可以包括S801～S805。

S801、从运维数据中提取关键词。

本实施例中，运维数据为应用系统相关的所有运行与管理数据，获取运维数据的方法包括多种，可选的一种获取运维数据的方法可以参见S101。

本实施例中，关键词为对运维数据具有代表性的分词，需要说明的是，提取关键词的方法包括多种，例如，对运维数据进行预处理和分词处理得到关键词，具体可以参见S102～S103。

S802、确定关键词的权重。

本实施例中，至少依据关键词的词频确定关键词的权重，关键词的权重指示关键词在运维数据中的重要程度，关键词的权重越大，则重要程度越高，可选的一种确定关键词的权重的方法可以参见图2所示。

需要说明的是，确定关键词的权重的方法还可以包括其它方法，例如，将关键词的词频作为关键词的权重，本实施例对此不做限定。

S803、依据权重以及短语在运维数据中的词频，从短语中获取候选标签。

本实施例中，短语由多个关键词构成，候选标签中的预设数量的关键词的权重大于预设阈值，且，作为候选标签的短语在运维数据中的词频大于预设词频阈值，需要说明的是，预设数量与短语中关键词总数量正相关。

需要说明的是，可选的一种从短语中获取候选标签的具体实现方式参见S105～S107。

S804、从对运维数据的历史评价数据中，获取候选标签的属性信息。

本实施例中，属性信息包括但不限于数据来源、计算规则、取值内容和特征表示参数的至少一项，获取标签的属性信息的方法可以为从历史评价数据中提取与候选标签相匹配的指标，并获取相匹配的指标的属性信息，需要说明的是，与候选标签相匹配的指标和候选标签的表达内容相似。

需要说明的是，从对运维数据的历史评价数据中，获取候选标签的属性信息的方法可以包括多种，其中，获取候选标签的属性信息的一种可选的方法可以为：从历史评价数据中获取所述候选标签的相似短语、以及相似短语的属性信息，具体参见S108～S109。

S805、依据属性信息，从候选标签中筛选标签。

本实施例中，从候选标签中筛选标签的方法包括：依据预设的属性信息对应规则，从选标签中筛选标签，属性信息对应规则为通过对历史评价信息总结概率得到，或通过专家经验得到的规则。

需要说明的是，依据属性信息，从候选标签中筛选标签的方法可以包括多种，一种可选的方法参见S110～S113。

由上述技术方案可以看出，本申请实施例提供的标签的获取方法，依据关键词的权重以及短语在运维数据中的词频，从短语中获取候选标签，并依据从对运维数据的历史评价数据中获取的候选标签的属性信息，筛选标签。其中，关键词从运维数据中获取，且短语由至少两个关键词组成，可以理解的是，关键词以及短语为两个维度的对运维数据的表达项，由于，关键词的权重能够表征作为表达项的关键词在运维数据中的重要程度，且短语的词频能够表征作为表达项的短语在运维数据中的重要程度，所以，依据关键词的权重以及短语在运维数据中的词频，从短语中获取的候选标签对于运维数据的重要程度高，以候选标签作为运维数据的表达项具有准确性和客观性，可以理解的是，历史评价数据具有客观性和准确性，所以，本方法依据从历史评价数据中提取的候选标签的属性信息筛选标签，进一步提高了标签的准确性和客观性，适用于对于应用系统的分析和评价。综上，本申请实施例提供的一种标签的获取方法能够定义用于描述应用系统的标签，且标签的准确度高。

图9示出了本申请实施例提供的一种标签的获取装置的结构示意图，如图9所示，该装置可以包括：

词提取模块901，用于从运维数据中提取关键词；

权重计算模块902，用于确定所述关键词的权重；

候选标签获取模块903，用于依据所述权重以及短语在所述运维数据中的词频，从所述短语中获取候选标签，所述短语由多个所述关键词构成；

标签信息获取模块904，用于从对所述运维数据的历史评价数据中，获取所述候选标签的属性信息；

标签筛选模块905，用于依据所述属性信息，从所述候选标签中筛选标签。

其中，权重计算模块用于确定所述关键词的权重，包括：权重计算模块具体用于：从所有所述关键词中，提取非独立关键词，所述非独立关键词为具有关联词的关键词，所述关联词为与所述非独立关键词具有预设的关联关系的关键词；至少依据非独立关键词在所述运维数据中的词频以及所述关联词在所述运维数据中的词频，计算所述非独立关键词的权重；至少依据独立关键词在所述运维数据中的词频，计算所述独立关键词的权重，所述独立关键词为除所述非独立关键词之外的关键词。

候选标签获取模块用于依据所述权重以及短语在所述运维数据中的词频，从所述短语中获取候选标签，包括：候选标签获取模块具体用于：获取候选短语，所述候选短语由预设数量的目标关键词组成，所述目标关键词为所述权重大于预设权重阈值的所述关键词；如果所述候选短语在所述运维数据中的词频大于预设词频阈值，将所述候选短语作为所述候选标签。

可选地，标签信息获取模块用于从对所述运维数据的历史评价数据中，获取所述候选标签的属性信息，包括：标签信息获取模块具体用于：从所述历史评价数据中获取所述候选标签的相似短语、以及所述相似短语的属性信息；将所述相似短语的属性信息，作为所述候选标签的属性信息。

可选地，标签筛选模块用于所述依据所述属性信息，从所述候选标签中筛选标签，包括：标签筛选模块具体用于：将所述候选标签的属性信息输入预设的分类模型，得到所述分类模型输出的分类结果，所述分类结果指示所述候选标签所属的功能分类或者不属于任何所述功能分类；将所述分类结果指示所述候选标签所属的功能分类的候选标签，作为所述标签。

可选地，属性信息包括：数据来源、计算规则、取值内容和特征表示参数的至少一项。

可选地，还包括：存储模块用于在依据所述属性信息，从所述候选标签中筛选标签之后，对应存储所述标签、所述标签的属性信息、以及所述标签的所述分类结果。

图10示出了该标签的获取设备的结构示意图，该设备可以包括：至少一个处理器1001，至少一个通信接口1002，至少一个存储器1003和至少一个通信总线1004；

在本申请实施例中，处理器1001、通信接口1002、存储器1003、通信总线1004的数量为至少一个，且处理器1001、通信接口1002、存储器1003通过通信总线1004完成相互间的通信；

处理器1001可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器1003可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可执行存储器存储的程序，实现本申请实施例提供的一种标签的获取方法的各个步骤，如下：

从运维数据中提取关键词；

确定所述关键词的权重；

依据所述属性信息，从所述候选标签中筛选标签。

可选地，属性信息包括：

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的计算机程序，计算机程序被处理器执行时，实现本申请实施例提供的一种标签的获取方法的各个步骤，如下：

从运维数据中提取关键词；

确定所述关键词的权重；

依据所述属性信息，从所述候选标签中筛选标签。

可选地，属性信息包括：

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种标签的获取方法，其特征在于，包括：

从运维数据中提取关键词；

确定所述关键词的权重；

依据所述属性信息，从所述候选标签中筛选标签；

所述依据所述权重以及短语在所述运维数据中的词频，从所述短语中获取候选标签，包括：

2.根据权利要求1所述的方法，其特征在于，所述从对所述运维数据的历史评价数据中，获取所述候选标签的属性信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述依据所述属性信息，从所述候选标签中筛选标签，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述属性信息包括：

5.根据权利要求3所述的方法，其特征在于，在依据所述属性信息，从所述候选标签中筛选标签之后，还包括：

6.一种标签的获取装置，其特征在于，包括：

词提取模块，用于从运维数据中提取关键词；

权重计算模块，用于确定所述关键词的权重，其中，所述权重计算模块具体用于：从所有所述关键词中，提取非独立关键词，所述非独立关键词为具有关联词的关键词，所述关联词为与所述非独立关键词具有预设的关联关系的关键词；至少依据非独立关键词在所述运维数据中的词频以及所述关联词在所述运维数据中的词频，计算所述非独立关键词的权重；至少依据独立关键词在所述运维数据中的词频，计算所述独立关键词的权重，所述独立关键词为除所述非独立关键词之外的关键词；

标签筛选模块，用于依据所述属性信息，从所述候选标签中筛选标签；

所述候选标签获取模块，具体用于获取候选短语，所述候选短语由预设数量的目标关键词组成，所述目标关键词为所述权重大于预设权重阈值的所述关键词；如果所述候选短语在所述运维数据中的词频大于预设词频阈值，将所述候选短语作为所述候选标签。

7.一种标签的获取设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～5中任一项所述的标签的获取方法的各个步骤。

8.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～5中任一项所述的标签的获取方法的各个步骤。