CN113535703A

CN113535703A - 一种提升样本数据集数据质量的方法及系统

Info

Publication number: CN113535703A
Application number: CN202110854516.2A
Authority: CN
Inventors: 陈瑞; 冷迪; 黄建华
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-10-22

Abstract

本发明提供一种提升样本数据集数据质量的方法及系统，包括，步骤S1，获取样本数据并进行筛选，获得高质量样本数据；对所述高质量样本数据进行判断，判断是否保留高质量样本数据；步骤S2，对保留的高质量样本数据进行训练，获得参考模型；步骤S3，判断所述参考模型的性能是否满足预设的阈值，当满足预设的阀值时获得标准模型；步骤S4，通过所述标准模型对所述最新的样本数据进行预测，获得标准预测结果；通过所述参考模型对所述最新的样本数据进行预测，获得参考预测结果；并进行比较确定是否保留标准模型；步骤S5，保留标准模型时，判定最新的样本数据为高质量。本发明省去人工筛选的时间，确定数据是高质量数据的准确率，提升模型的效果。

Description

一种提升样本数据集数据质量的方法及系统

技术领域

本发明涉及计算机技术领域，特别是涉及一种提升样本数据集数据质量的方法及系统。

背景技术

随着企业数字化和智能化程度越来越高，不仅在发展规模上较之前有了明显的提升，当前信息通信系统建设力度也在不断加大，在发展的同时也引发了一系列的困扰，通信系统的不断升级与完善无疑增加了运维的难度与复杂性。构建合理、科学的管理操作平台是电力企业亟待解决的问题。通过一体化运维体系的构建，可以在其技术框架基础之上，结合当前电力信息系统IT基础架构的实际情况，对其运维模式以及运行状态进行合理化评估。评估结果能够有效为电力信息系统正常运行提供相应的技术支撑，提高企业信息系统运维高效性。

为了能够更好完成建模工作，需要进行深度学习，而若想学习模型准确就需要持续训练，在训练过程中，训练集需要采集标记数据，而高质量的数据集获取本身需要投入大量的成本(资金，时间等)，目前市面上获取高质量的数据是人工操作的，即依靠人工获取数据，并依靠人工对所获取的数据进行质量判断，然而，依靠人工来处理数据集的话，对于数据增强需要几十几百倍的数据，普通标注数据有一点难度，再者，人工识别完全是凭借判断者的知识累积，数据的判断大部分是依靠判断者的人为意识，所判断的数据存在误差，人工所识别的数据并不全部都是属于高质量数据，数据不理想，数据存在很大问题，加上能够识别高质量数据的人的门槛高，从而导致识别高质量数据的人更是稀缺。

发明内容

本发明的目的在于，提出一种提升样本数据集数据质量的方法及系统，解决现有深度学习过程中，训练集的高质量数据获取的成本高且效率低的技术问题。

一方面，提供一种提升样本数据集数据质量的方法，包括以下步骤：

步骤S1，获取样本数据并根据预设的筛选条件进行筛选，获得高质量样本数据；根据预设的样本类型筛选条件对所述高质量样本数据进行判断，保留符合所述预设的样本类型筛选条件中样本类型的高质量样本数据；

步骤S2，根据保留的高质量样本数据对基础模型进行训练，获得参考模型；

步骤S3，判断所述参考模型的性能是否满足预设的阈值，当所述参考模型的性能满足预设的阀值时，通过高质量样本数据对所述参考模型进行训练，获得标准模型；

步骤S4，获取最新的样本数据，通过所述标准模型对所述最新的样本数据进行预测，获得标准预测结果；通过所述参考模型对所述最新的样本数据进行预测，获得参考预测结果；并将所述标准预测结果与所述参考预测结果进行比较，根据比较结果确定是否保留标准模型；

步骤S5，当保留标准模型时，判定所述最新的样本数据为高质量样本数据。

优选地，所述步骤S1包括：

通过预设的筛选条件对获取的样本数据逐一进行判断，当样本数据满足预设的筛选条件时，将该样本数据保留并标记为高质量样本数据；当样本数据不满足预设的筛选条件时，将该样本数据删除或忽略。

优选地，所述步骤S1还包括：

识别所述高质量样本数据的类别，并将高质量样本数据的类别与预设的样本类型阈值比较；

当高质量样本数据的类别与预设的样本类型阈值相同时，将该样本数据保留；

当高质量样本数据的类别与预设的样本类型阈值不相同时，将该样本数据删除。

优选地，所述步骤S3包括：

识别所述参考模型包含的业务指标数量，并将参考模型包含的业务指标数量与预设的阈值比较；

当参考模型包含的业务指标数量大于等于预设的阈值时，判定参考模型的性能满足预设的阀值；

当参考模型包含的业务指标数量小于预设的阈值时，判定参考模型的性能不满足预设的阀值。

优选地，所述步骤S3还包括：

获取高质量样本数据的历史标注数据，并识别历史标注数据的特征；

将属于同一特征的历史标注数据根据预设的训练规则进行训练，获得标注参考模型；

获取高质量样本数据的未标注数据，通过标注参考模型识别所述未标注数据的特征并与历史标注数据的特征比较，按相同或相似的历史标注数据的特征对所述未标注数据进行标记，标记上与所述历史标注数据相同的软标签；

根据预设的训练规则对所述软标签进行训练，获得标准模型。

优选地，所述步骤S4包括：

当所述标准预测结果与所述参考预测结果一致时，判定保留该标准模型；

当所述标准预测结果与所述参考预测结果不一致时，判定不保留该标准模型。

另一方面，还提供一种提升样本数据集数据质量的系统，用以实现所述的提升样本数据集数据质量方法，包括：

样本挑选模块，用以获取样本数据并根据预设的筛选条件进行筛选，获得高质量样本数据；根据预设的样本类型筛选条件对所述高质量样本数据进行判断，保留符合所述预设的样本类型筛选条件中样本类型的高质量样本数据；

参考模型模块，用以根据保留的高质量样本数据对基础模型进行训练，获得参考模型；

标准模型模块，用以判断所述参考模型的性能是否满足预设的阈值，当所述参考模型的性能满足预设的阀值时，通过高质量样本数据对所述参考模型进行训练，获得标准模型；

校验模块，用以获取最新的样本数据，通过所述标准模型对所述最新的样本数据进行预测，获得标准预测结果；通过所述参考模型对所述最新的样本数据进行预测，获得参考预测结果；并将所述标准预测结果与所述参考预测结果进行比较，根据比较结果确定是否保留标准模型，当保留标准模型时，判定所述最新的样本数据为高质量样本数据。

优选地，所述样本挑选模块还用于通过预设的筛选条件对获取的样本数据逐一进行判断，当样本数据满足预设的筛选条件时，将该样本数据保留并标记为高质量样本数据；当样本数据不满足预设的筛选条件时，将该样本数据删除或忽略；

以及用于识别所述高质量样本数据的类别，并将高质量样本数据的类别与预设的样本类型阈值比较；当高质量样本数据的类别与预设的样本类型阈值相同时，将该样本数据保留；当高质量样本数据的类别与预设的样本类型阈值不相同时，将该样本数据删除。

优选地，所述标准模型模块还用于识别所述参考模型包含的业务指标数量，并将参考模型包含的业务指标数量与预设的阈值比较；当参考模型包含的业务指标数量大于等于预设的阈值时，判定参考模型的性能满足预设的阀值；当参考模型包含的业务指标数量小于预设的阈值时，判定参考模型的性能不满足预设的阀值；

以及用于获取高质量样本数据的历史标注数据，并识别历史标注数据的特征；将属于同一特征的历史标注数据根据预设的训练规则进行训练，获得标注参考模型；获取高质量样本数据的未标注数据，通过标注参考模型识别所述未标注数据的特征并与历史标注数据的特征比较，按相同或相似的历史标注数据的特征对所述未标注数据进行标记，标记上与所述历史标注数据相同的软标签；根据预设的训练规则对所述软标签进行训练，获得标准模型。

优选地，所述校验模块还用于生成比较结果为所述标准预测结果与所述参考预测结果一致时，判定保留该标准模型；

综上，实施本发明的实施例，具有如下的有益效果：

本发明提供的提升样本数据集数据质量的方法及系统，通过获取少量的高质量数据来训练参考模型，再通过参考模型产生标准模型，并对参考模型和标准模型进行校验，使得可以大幅度提升标准模型能力，也能保证样本预测的准确性，另外，本发明对低质量的数据直接排除(即不训练)或者删掉，只对高质量的数据进行训练，使得所训练出的数据都是高质量数据，一方面省去人工筛选数据的时间，另一方面是所训练出的数据是高质量数据的准确率高，能更好的提升模型的效果，提高企业信息系统运维高效性，同时也解决了识别高质量数据的人才稀缺的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例中一种提升样本数据集数据质量的方法的主流程示意图。

图2为本发明实施例中获取高质量样本数据的逻辑示意图。

图3为本发明实施例中校验标准模型的逻辑示意图。

图4为本发明实施例中一种提升样本数据集数据质量的系统的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明提供的一种提升样本数据集数据质量的方法的一个实施例的示意图。在该实施例中，所述方法包括以下步骤：

步骤S1，获取样本数据并根据预设的筛选条件进行筛选，获得高质量样本数据；根据预设的样本类型筛选条件对所述高质量样本数据进行判断，保留符合所述预设的样本类型筛选条件中样本类型的高质量样本数据；可以理解的是，高质量的样本数据可以由人工挑选，也可以是机器自动挑选，而高质量的样本数据的设置具体可以是人为设定判断条件。另外，机器挑选时，会设置判断条件，即判断样本数据的属性是否达到某一高级条件，如运行环境是否为windows环境，产生方是否为重要设备等等，值得注意的是，利用机器挑选高质量的数据时，机器会逐一选取数据并进行判断，当机器识别出数据不是高质量的数据时可以删除或者直接不训练，继续需找下一个数据。

具体实施例中，如图2所示，通过预设的筛选条件对获取的样本数据逐一进行判断，当样本数据满足预设的筛选条件时，将该样本数据保留并标记为高质量样本数据；当样本数据不满足预设的筛选条件时，将该样本数据删除或忽略。可以理解的是，挑选出差异比较大的样本数据，应理解，挑选出差异比较大的样本数据，减少样本数据间的冗余信息，并不是所有数据都挑选，挑选出差异比较大的样本数据主要可以是挑选不同类型业务指标的高质量的数据，如分别从硬盘、磁盘、内存、CPU、中间件或其他不同业务指标挑选出高质量的数据，其中，通过人工帅选的候选样本，剔除与候选样本的主题相违背，这样能做能增加样本的多样性，方便后期标准模型的生成，还可以剔除低信息的样本数据。

具体地，识别所述高质量样本数据的类别，并将高质量样本数据的类别与预设的样本类型阈值比较；当高质量样本数据的类别与预设的样本类型阈值相同时，将该样本数据保留；当高质量样本数据的类别与预设的样本类型阈值不相同时，将该样本数据删除。可以理解的是，在挑选完样本后，还要识别出所要挑选的样本的类型，并判断所选择的类型是否为用户所设定的类型，如果是则继续执行后续步骤，如果不是则删除该样本。

步骤S2，根据保留的高质量样本数据对基础模型进行训练，获得参考模型；可以理解的是，利用所挑选的少量高质量的样本数据进行训练以得到参考模型。应理解，参考模型也是有性能的，即参考模型的属性是属于哪个类型的业务指标，因此需要对哪些业务指标进行参考模型训练，也是特定设置的。

步骤S3，判断所述参考模型的性能是否满足预设的阈值，当所述参考模型的性能满足预设的阀值时，通过高质量样本数据对所述参考模型进行训练，获得标准模型；可以理解的是，主要是判断参考模型所包含的业务指标的的数量是否达到阈值，但值得注意的是，阈值不单单可以是类型的数量，还可以是其他等，当参考模型性能满足阀值时，就进行标准模型的产生。

具体实施例中，识别所述参考模型包含的业务指标数量，并将参考模型包含的业务指标数量与预设的阈值比较；当参考模型包含的业务指标数量大于等于预设的阈值时，判定参考模型的性能满足预设的阀值；当参考模型包含的业务指标数量小于预设的阈值时，判定参考模型的性能不满足预设的阀值。可以理解的是，实施例中主要判断参考模型是否包括有训练的样本为硬盘的数据所对应的参考模型、训练的样本为磁盘的数据所对应的参考模型、训练的样本为内存的数据所对应的参考模型、训练的样本为CPU的数据所对应的参考模型等，如果都包含了，那就达到阈值了。

具体地，获取高质量样本数据的历史标注数据，并识别历史标注数据的特征；将属于同一特征的历史标注数据根据预设的训练规则进行训练，获得标注参考模型；获取高质量样本数据的未标注数据，通过标注参考模型识别所述未标注数据的特征并与历史标注数据的特征比较，按相同或相似的历史标注数据的特征对所述未标注数据进行标记，标记上与所述历史标注数据相同的软标签；根据预设的训练规则对所述软标签进行训练，获得标准模型。可以理解的是，获取参考模型所被训练过的样本数据，并根据这些样本数据对未训练的样本数据进行打标签，且根据标签对未训练的样本数据进行训练以得到标准模型。

步骤S4，获取最新的样本数据，通过所述标准模型对所述最新的样本数据进行预测，获得标准预测结果；通过所述参考模型对所述最新的样本数据进行预测，获得参考预测结果；并将所述标准预测结果与所述参考预测结果进行比较，根据比较结果确定是否保留标准模型；可以理解的是，将n个标准模型的m次最新样本预测结果与同一参考模型的m次最新样本预测结果对比，并判断两者是否保持一致，如果保持一致，保留标准模型，如果不一致，删除标准模型。

具体实施例中，如图3所示，当所述标准预测结果与所述参考预测结果一致时，判定保留该标准模型；当所述标准预测结果与所述参考预测结果不一致时，判定不保留该标准模型，该步骤主要是对标准模型进一步进行验证，而在步骤中，是随机抽取n个标准模型的m次最新样本预测结果，如果n个标准模型的m次最新样本预测结果与同一参考模型的m次最新样本预测结果一致，则说明预测的是高质量的样本数据，如果n个标准模型的m次最新样本预测结果与同一参考模型的m次最新样本预测结果不一致，会影响所训练的样本数据的质量，则需要删除，这样可以大幅度提升标准模型能力，也能保证样本预测的准确性。

步骤S5，当保留标准模型时，判定所述最新的样本数据为高质量样本数据。可以理解的是，通过上述步骤建立一套领导和标准模型：通过用少量的高质量训练集训练参考模型，随后通过参考模型收集增强指数用来训练标准模型，可以大幅度提升标准模型能力，同时，无需去寻找额外的公开数据集，直接从实际业务中就能获取大量的高质量数据来进行增强，这样省去我们人工筛选数据的时间，也能更好的提升模型的效果，很好的解决样本集的问题。

如图4所示，为本发明提供的一种提升样本数据集数据质量的方法的一个实施例的示意图。在该实施例中，所述系统用以实现所述的提升样本数据集数据质量方法包括：

样本挑选模块，用以获取样本数据并根据预设的筛选条件进行筛选，获得高质量样本数据；根据预设的样本类型阈值对所述高质量样本数据进行判断，保留与所述预设的样本类型相同的高质量样本数据；

参考模型模块，用以通过预设的训练规则对保留的高质量样本数据进行训练，获得参考模型；

标准模型模块，用以判断所述参考模型的性能是否满足预设的阈值，当所述参考模型的性能满足预设的阀值时，根据所述参考模型对高质量样本数据中未标注的样本进行训练，获得标准模型；

校验模块，用以获取最新的样本数据，通过所述标准模型对所述最新的样本数据进行预测，获得标准预测结果；通过所述参考模型对所述最新的样本数据进行预测，获得参考预测结果；并将所述标准预测结果与所述参考预测结果进行比较，根据比较结果确定是否保留标准模型，当保留标准模型时，判定该最新的样本数据为高质量样本数据。

具体实施例中，所述样本挑选模块还用于通过预设的筛选条件对获取的样本数据逐一进行判断，当样本数据满足预设的筛选条件时，将该样本数据保留并标记为高质量样本数据；当样本数据不满足预设的筛选条件时，将该样本数据删除或忽略；

具体地，所述标准模型模块还用于识别所述参考模型包含的业务指标数量，并将参考模型包含的业务指标数量与预设的阈值比较；当参考模型包含的业务指标数量大于等于预设的阈值时，判定参考模型的性能满足预设的阀值；当参考模型包含的业务指标数量小于预设的阈值时，判定参考模型的性能不满足预设的阀值；

再具体地，所述校验模块还用于生成比较结果为所述标准预测结果与所述参考预测结果一致时，判定保留该标准模型；当所述标准预测结果与所述参考预测结果不一致时，判定不保留该标准模型。

关于提升样本数据集数据质量的系统的实现过程，可参考上述提升样本数据集数据质量的方法的过程，在此不再赘述。

综上，实施本发明的实施例，具有如下的有益效果：

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种提升样本数据集数据质量的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤S1包括：

通过预设的筛选条件对获取的样本数据逐一进行判断，当样本数据满足预设的筛选条件时，将该样本数据保留并标记为高质量样本数据；当样本数据不满足预设的筛选条件时，将该样本数据删除。

3.如权利要求2所述的方法，其特征在于，所述步骤S1还包括：

4.如权利要求3所述的方法，其特征在于，所述步骤S3包括：

5.如权利要求4所述的方法，其特征在于，所述步骤S3还包括：

6.如权利要求5所述的方法，其特征在于，所述步骤S4包括：

7.一种提升样本数据集数据质量的系统，用以实现如权利要求1-6任一项所述的方法，其特征在于，包括：

8.如权利要求7所述的系统，其特征在于，所述样本挑选模块还用于通过预设的筛选条件对获取的样本数据逐一进行判断，当样本数据满足预设的筛选条件时，将该样本数据保留并标记为高质量样本数据；当样本数据不满足预设的筛选条件时，将该样本数据删除或忽略；

9.如权利要求8所述的系统，其特征在于，所述标准模型模块还用于识别所述参考模型包含的业务指标数量，并将参考模型包含的业务指标数量与预设的阈值比较；当参考模型包含的业务指标数量大于等于预设的阈值时，判定参考模型的性能满足预设的阀值；当参考模型包含的业务指标数量小于预设的阈值时，判定参考模型的性能不满足预设的阀值；

10.如权利要求9所述的系统，其特征在于，所述校验模块还用于生成比较结果为所述标准预测结果与所述参考预测结果一致时，判定保留该标准模型；