CN113361624A

CN113361624A - 一种基于机器学习的传感数据质量评估方法

Info

Publication number: CN113361624A
Application number: CN202110692930.8A
Authority: CN
Inventors: 张永军; 简晓雯
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-09-07

Abstract

本文公开了一种基于机器学习的传感数据质量评估方法，方法主要包括：对传感数据质量评估的研究，在传统数据质量评估流程中引入机器学习分类算法。首先对传感数据集进行数据质量指标的分析计算，然后进行数据质量的标注；利用标注的数据集训练得到分类算法模型，算法通过对过采样进行加权处理、对集成学习算法加入代价敏感因子，使得算法整体更加偏向分类错误的少数类样本，并且对数据质量差的数据更为重视；利用模型进行数据质量的坏点分离并得出整体数据质量评估。本发明通过引入机器学习算法，根据传感数据质量特点，对传统分类算法进行改进，可以实现在数据量大时，对数据进行定量与定性结合、自动化的评估，达到了较高的效率。

Description

一种基于机器学习的传感数据质量评估方法

技术领域

本发明涉及数据质量研究领域，聚焦于传感数据研究，具体涉及一种基于机器学习的传感数据质量评估方法。

背景技术

工业互联网、云计算等新一代信息技术的持续发展，以及各个领域如农业、金融、工业、物联网等数字化业务的建立，带来了数据量爆炸式的积累。工业互联网发展为传感器带来巨大机会的同时，也对传感器数据质量提出了新的要求。数据质量是首要考虑因素，应作为最基本的需求考虑。如果数据质量不能得到良好的评估、进行及时的相应处理，带来的不仅仅是信息判断的误差，还可能会出现对后期发展的判断失误，从而导致经济、时间上的损失，因此评估数据质量有着重要意义，这决定着后续企业、机构能否准确地利用传感等数据获得决策信息。

国内外对数据质量的研究较多关注点还是在于数据的存储、挖掘分析等方面，对数据质量评估问题仍不够重视。数据质量评估是数据管理中的重要一环，是数据管理过程的关键问题。目前现有的数据质量评估方法，主要是根据相关标准、规范，通过问卷、访谈等方式，由有经验的专家人工进行评估、分析。但数据质量评估过程复杂，在数据量小时这种评估方式尚可，在数据量指数增长后，这种评估方式变得效率低下，因此，需要一种能够减轻评估成本、提高评估效率的数据质量评估方法。

本发明为了解决以上问题，将机器学习分类算法引入到传统数据质量评估流程中，提出了一种基于机器学习的传感数据质量评估方法，能够同时评估整体数据质量以及局部数据点的质量，分离出好坏数据，减少大量人工质量评估，提高评估效率。

发明内容

本发明主要综合了权威的数据质量评估指标，将机器学习分类算法加入到对数据质量评估流程中，同时根据传感数据集满足不平衡数据的两个定义，选取机器学习中的不平衡数据分类算法。并对不平衡数据分类算法做出了改进，提高分类效果，能够同时评估整体数据质量以及局部数据点的质量，分离出好坏数据，减少大量人工质量评估流程，提高评估效率，发明的方法流程为：

步骤1：接入约定格式的数据，对数据进行预处理；

步骤2：根据数据的完整性、有效性、一致性、及时性指标对数据进行分析，进行数据质量的标注；

步骤3：将数据一部分作为训练集输入到改进的SMOTE算法与改进的AdaBoost算法结合提出的算法中进行训练，得到数据质量分类模型；

步骤4：利用步骤3得出的模型对数据进行数据质量分类，分离出单个数据坏点，得出总体数据优良率。

步骤3中的改进算法整体上继承了经典Boosting：AdaBoost算法的基础结构，算法起始时输入原始的不平衡样本集、弱分类算法、迭代轮次，然后经过指定的迭代轮次训练后得到多个弱分类器，综合多个弱分类器的分类效果，组合成强分类器。在迭代的样本准备阶段，加入本方法提出的WSMOTE过采样算法，对少数类进行采样，挑选对分类贡献较大的少数类样本，以此作为根本样本生成新的少数类样本，使得数据集均衡化；在AdaBoost的样本权值更新中，利用代价敏感思想为错分的少数类样本赋予更多的权值，使算法在下一轮迭代时专注于较难处理的样本。

本发明具有以下特点：1)对数据进行定量与定性得结合评估方法，同时能够很好的评估数据的整体质量；2)引入机器学习进行数据质量评估，对于大规模数据质量评估需求，能够有效地提升效率与准确性，完成自动化的数据质量评估。

附图说明

图1是数据质量评估方法流程图；

图2是本发明改进的整体算法流程图；

图3是改进的SMOTE算法；

具体实施方法

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

如图1所示，为本发明公开的一种数据质量评估方法实施的整体流程，主要流程为：

首先根据指定数据来源的传感设备的具体使用规则，根据数据评估流程，对以下4个数据指标进行分析进行数据质量的标注。

(1)数据完整性原则

数据的完整性是评估当前实体数据字段的完整程度，即是否有数据缺失或字段缺失，根据设备使用相关文档，确定必填的数据字段，将实际数据情况与规定的填充规则对比。

(2)数据有效性原则

数据有效性则是度量数据是否符合当前属性的规范。根据设备使用相关文档，将实际数据情况与规定的数据规则如数据范围、单位等作对比。

(3)数据一致性原则

数据一致性是度量数据间的一致程度，即判断当前数据与本设备同期或相关的数据是否呈现一致。

(4)数据及时性原则

数据及时性是度量数据在被使用记录时的可访问性的时间预期程度，通用的说法是评估当前数据是否过期。

当数据满足所有指标原则时，该项数据可标注为质量好的数据，若全部不满足则为质量差的数据，当满足部分指标时，为了更加准确的对数据进行标注，根据数据来源的具体情况分析判别当前数据集的指标的倾向性再做标注。

对训练集准备完毕后，用户进行模型的构建，后台利用储备的训练集，使用本发明提出的机器学习算法进行模型的训练，模型训练完毕后保存至平台，用于新建评估任务，对后续数据进行自动化评估。评估的结果主要包括当前设备的总体数据优良率，以及单个数据的好坏程度。

前面提到的本发明提出的机器学习算法为结合改进的SMOTE采样与改进的AdaBoost集成学习算法，如图2所示为本发明提出的算法流程图。对于SMOTE采样，如图3所示，结合欧式距离和剔除掉噪声样本点，计算样本的权值，利用权值得出需要采样的点数。对于 AdaBoost算法加入代价敏感的训练集权重更新，使得整个算法过程更关注于错误分类的少数类样本点。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于机器学习的传感数据质量评估方法，其特征在于，包括：

步骤1：接入指定格式的传感设备存储或采集的数据，进行数据预处理；

步骤2：根据数据指标对数据进行分析，进行数据质量的标注；

步骤4：利用步骤3得出的模型对数据进行数据质量分类，分离出单个数据坏点，得出总体数据评估的结果。

2.根据权利要求1所述的一种基于机器学习的传感数据质量评估方法，其特征在于，步骤S2的数据指标数据完整性、数据有效性、数据一致性、数据及时性的定量分析。

3.根据权利要求1所述的方法，其特征在于，步骤3中输入算法SMOTE算法与AdaBoost的改进。

4.根据权利要求3所述的方法，其特征在于，对于SMOTE算法利用欧式距离和计算噪声样本，过滤噪声样本点，并进行归一化处理计算权值，使得靠近分类中心与分类边界的样本点拥有更大权值，采样点数更多。

5.根据权利要求3所述的方法，其特征在于，对于AdaBoost算法权值更新部分加入代价敏感因子的改进，考虑正类与负类样本的带权分类错误率，使算法迭代过程兼顾正类与负类，对于正类与负类样本错分代价不同，根据正负类的分类损失有区别的更新样本权值，能够使得错分的少数类样本得到关注，算法更加偏向分类错误的数据坏点，提高分类准确率。