CN113361624A - 一种基于机器学习的传感数据质量评估方法 - Google Patents
一种基于机器学习的传感数据质量评估方法 Download PDFInfo
- Publication number
- CN113361624A CN113361624A CN202110692930.8A CN202110692930A CN113361624A CN 113361624 A CN113361624 A CN 113361624A CN 202110692930 A CN202110692930 A CN 202110692930A CN 113361624 A CN113361624 A CN 113361624A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- classification
- data quality
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000010801 machine learning Methods 0.000 title claims abstract description 15
- 238000013441 quality evaluation Methods 0.000 title abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract 2
- 238000001303 quality assessment method Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 2
- 238000011157 data evaluation Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 238000004445 quantitative analysis Methods 0.000 claims 1
- 230000001953 sensory effect Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 11
- 238000007635 classification algorithm Methods 0.000 abstract description 8
- 238000011160 research Methods 0.000 abstract description 4
- 238000000926 separation method Methods 0.000 abstract 1
- 238000011161 development Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本文公开了一种基于机器学习的传感数据质量评估方法,方法主要包括:对传感数据质量评估的研究,在传统数据质量评估流程中引入机器学习分类算法。首先对传感数据集进行数据质量指标的分析计算,然后进行数据质量的标注;利用标注的数据集训练得到分类算法模型,算法通过对过采样进行加权处理、对集成学习算法加入代价敏感因子,使得算法整体更加偏向分类错误的少数类样本,并且对数据质量差的数据更为重视;利用模型进行数据质量的坏点分离并得出整体数据质量评估。本发明通过引入机器学习算法,根据传感数据质量特点,对传统分类算法进行改进,可以实现在数据量大时,对数据进行定量与定性结合、自动化的评估,达到了较高的效率。
Description
技术领域
本发明涉及数据质量研究领域,聚焦于传感数据研究,具体涉及一种基于机器学习的传感数据质量评估方法。
背景技术
工业互联网、云计算等新一代信息技术的持续发展,以及各个领域如农业、金融、工业、物联网等数字化业务的建立,带来了数据量爆炸式的积累。工业互联网发展为传感器带来巨大机会的同时,也对传感器数据质量提出了新的要求。数据质量是首要考虑因素,应作为最基本的需求考虑。如果数据质量不能得到良好的评估、进行及时的相应处理,带来的不仅仅是信息判断的误差,还可能会出现对后期发展的判断失误,从而导致经济、时间上的损失,因此评估数据质量有着重要意义,这决定着后续企业、机构能否准确地利用传感等数据获得决策信息。
国内外对数据质量的研究较多关注点还是在于数据的存储、挖掘分析等方面,对数据质量评估问题仍不够重视。数据质量评估是数据管理中的重要一环,是数据管理过程的关键问题。目前现有的数据质量评估方法,主要是根据相关标准、规范,通过问卷、访谈等方式,由有经验的专家人工进行评估、分析。但数据质量评估过程复杂,在数据量小时这种评估方式尚可,在数据量指数增长后,这种评估方式变得效率低下,因此,需要一种能够减轻评估成本、提高评估效率的数据质量评估方法。
本发明为了解决以上问题,将机器学习分类算法引入到传统数据质量评估流程中,提出了一种基于机器学习的传感数据质量评估方法,能够同时评估整体数据质量以及局部数据点的质量,分离出好坏数据,减少大量人工质量评估,提高评估效率。
发明内容
本发明主要综合了权威的数据质量评估指标,将机器学习分类算法加入到对数据质量评估流程中,同时根据传感数据集满足不平衡数据的两个定义,选取机器学习中的不平衡数据分类算法。并对不平衡数据分类算法做出了改进,提高分类效果,能够同时评估整体数据质量以及局部数据点的质量,分离出好坏数据,减少大量人工质量评估流程,提高评估效率,发明的方法流程为:
步骤1:接入约定格式的数据,对数据进行预处理;
步骤2:根据数据的完整性、有效性、一致性、及时性指标对数据进行分析,进行数据质量的标注;
步骤3:将数据一部分作为训练集输入到改进的SMOTE算法与改进的AdaBoost算法结合提出的算法中进行训练,得到数据质量分类模型;
步骤4:利用步骤3得出的模型对数据进行数据质量分类,分离出单个数据坏点,得出总体数据优良率。
步骤3中的改进算法整体上继承了经典Boosting:AdaBoost算法的基础结构,算法起始时输入原始的不平衡样本集、弱分类算法、迭代轮次,然后经过指定的迭代轮次训练后得到多个弱分类器,综合多个弱分类器的分类效果,组合成强分类器。在迭代的样本准备阶段,加入本方法提出的WSMOTE过采样算法,对少数类进行采样,挑选对分类贡献较大的少数类样本,以此作为根本样本生成新的少数类样本,使得数据集均衡化;在AdaBoost的样本权值更新中,利用代价敏感思想为错分的少数类样本赋予更多的权值,使算法在下一轮迭代时专注于较难处理的样本。
本发明具有以下特点:1)对数据进行定量与定性得结合评估方法,同时能够很好的评估数据的整体质量;2)引入机器学习进行数据质量评估,对于大规模数据质量评估需求,能够有效地提升效率与准确性,完成自动化的数据质量评估。
附图说明
图1是数据质量评估方法流程图;
图2是本发明改进的整体算法流程图;
图3是改进的SMOTE算法;
具体实施方法
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1所示,为本发明公开的一种数据质量评估方法实施的整体流程,主要流程为:
首先根据指定数据来源的传感设备的具体使用规则,根据数据评估流程,对以下4个数据指标进行分析进行数据质量的标注。
(1)数据完整性原则
数据的完整性是评估当前实体数据字段的完整程度,即是否有数据缺失或字段缺失,根据设备使用相关文档,确定必填的数据字段,将实际数据情况与规定的填充规则对比。
(2)数据有效性原则
数据有效性则是度量数据是否符合当前属性的规范。根据设备使用相关文档,将实际数据情况与规定的数据规则如数据范围、单位等作对比。
(3)数据一致性原则
数据一致性是度量数据间的一致程度,即判断当前数据与本设备同期或相关的数据是否呈现一致。
(4)数据及时性原则
数据及时性是度量数据在被使用记录时的可访问性的时间预期程度,通用的说法是评估当前数据是否过期。
当数据满足所有指标原则时,该项数据可标注为质量好的数据,若全部不满足则为质量差的数据,当满足部分指标时,为了更加准确的对数据进行标注,根据数据来源的具体情况分析判别当前数据集的指标的倾向性再做标注。
对训练集准备完毕后,用户进行模型的构建,后台利用储备的训练集,使用本发明提出的机器学习算法进行模型的训练,模型训练完毕后保存至平台,用于新建评估任务,对后续数据进行自动化评估。评估的结果主要包括当前设备的总体数据优良率,以及单个数据的好坏程度。
前面提到的本发明提出的机器学习算法为结合改进的SMOTE采样与改进的AdaBoost集成学习算法,如图2所示为本发明提出的算法流程图。对于SMOTE采样,如图3所示,结合欧式距离和剔除掉噪声样本点,计算样本的权值,利用权值得出需要采样的点数。对于 AdaBoost算法加入代价敏感的训练集权重更新,使得整个算法过程更关注于错误分类的少数类样本点。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种基于机器学习的传感数据质量评估方法,其特征在于,包括:
步骤1:接入指定格式的传感设备存储或采集的数据,进行数据预处理;
步骤2:根据数据指标对数据进行分析,进行数据质量的标注;
步骤3:将数据一部分作为训练集输入到改进的SMOTE算法与改进的AdaBoost算法结合提出的算法中进行训练,得到数据质量分类模型;
步骤4:利用步骤3得出的模型对数据进行数据质量分类,分离出单个数据坏点,得出总体数据评估的结果。
2.根据权利要求1所述的一种基于机器学习的传感数据质量评估方法,其特征在于,步骤S2的数据指标数据完整性、数据有效性、数据一致性、数据及时性的定量分析。
3.根据权利要求1所述的方法,其特征在于,步骤3中输入算法SMOTE算法与AdaBoost的改进。
4.根据权利要求3所述的方法,其特征在于,对于SMOTE算法利用欧式距离和计算噪声样本,过滤噪声样本点,并进行归一化处理计算权值,使得靠近分类中心与分类边界的样本点拥有更大权值,采样点数更多。
5.根据权利要求3所述的方法,其特征在于,对于AdaBoost算法权值更新部分加入代价敏感因子的改进,考虑正类与负类样本的带权分类错误率,使算法迭代过程兼顾正类与负类,对于正类与负类样本错分代价不同,根据正负类的分类损失有区别的更新样本权值,能够使得错分的少数类样本得到关注,算法更加偏向分类错误的数据坏点,提高分类准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110692930.8A CN113361624A (zh) | 2021-06-22 | 2021-06-22 | 一种基于机器学习的传感数据质量评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110692930.8A CN113361624A (zh) | 2021-06-22 | 2021-06-22 | 一种基于机器学习的传感数据质量评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113361624A true CN113361624A (zh) | 2021-09-07 |
Family
ID=77535660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110692930.8A Pending CN113361624A (zh) | 2021-06-22 | 2021-06-22 | 一种基于机器学习的传感数据质量评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361624A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273552A (zh) * | 2023-11-22 | 2023-12-22 | 山东顺国电子科技有限公司 | 一种基于机器学习的大数据智能治理决策方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103332A (zh) * | 2017-04-07 | 2017-08-29 | 武汉理工大学 | 一种面向大规模数据集的相关向量机分类方法 |
CN108830328A (zh) * | 2018-06-21 | 2018-11-16 | 中国矿业大学 | 融合空间知识的微震信号smote识别方法及监测系统 |
CN110659682A (zh) * | 2019-09-21 | 2020-01-07 | 胡燕祝 | 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法 |
CN111259924A (zh) * | 2020-01-07 | 2020-06-09 | 吉林大学 | 一种边界合成、混合采样、异常检测算法及数据分类方法 |
-
2021
- 2021-06-22 CN CN202110692930.8A patent/CN113361624A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103332A (zh) * | 2017-04-07 | 2017-08-29 | 武汉理工大学 | 一种面向大规模数据集的相关向量机分类方法 |
CN108830328A (zh) * | 2018-06-21 | 2018-11-16 | 中国矿业大学 | 融合空间知识的微震信号smote识别方法及监测系统 |
CN110659682A (zh) * | 2019-09-21 | 2020-01-07 | 胡燕祝 | 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法 |
CN111259924A (zh) * | 2020-01-07 | 2020-06-09 | 吉林大学 | 一种边界合成、混合采样、异常检测算法及数据分类方法 |
Non-Patent Citations (6)
Title |
---|
操松元;严波;季坤;夏令志;方登洲;程洋;王康;卫鹏;: "融合改进SMOTE与Stacking算法的输电通道树线放电因子风险状态评估" * |
秦小野: "AadaBoost算法在污染物浓度与气象指数异常预测中的应用" * |
秦小野: "AdaBoost算法在污染物浓度与气象指数异常预测中的应用", 《中国优秀硕士学位论文全文数据库》 * |
董明刚;姜振龙;敬超;: "基于海林格距离和SMOTE的多类不平衡学习算法" * |
邵良杉;周玉;: "一种改进过采样算法在类别不平衡信用评分中的应用" * |
齐艺兰: "EPR系统的数据质量评价研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273552A (zh) * | 2023-11-22 | 2023-12-22 | 山东顺国电子科技有限公司 | 一种基于机器学习的大数据智能治理决策方法及系统 |
CN117273552B (zh) * | 2023-11-22 | 2024-02-13 | 山东顺国电子科技有限公司 | 一种基于机器学习的大数据智能治理决策方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193959B (zh) | 一种面向纯文本的企业实体分类方法 | |
CN103617435B (zh) | 一种主动学习图像分类方法和系统 | |
CN112434720A (zh) | 一种基于图注意力网络的中文短文本分类方法 | |
CN112435651B (zh) | 一种语音数据自动标注的质量评估方法 | |
CN109376247B (zh) | 一种基于关联规则的软件缺陷自动分类方法 | |
CN112700325A (zh) | 一种基于Stacking集成学习的网贷回头客预测的方法 | |
CN103593470B (zh) | 一种双度集成的不均衡数据流分类算法 | |
CN111274814B (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN113779260B (zh) | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 | |
CN112836067B (zh) | 基于知识图谱的智能搜索方法 | |
CN111966944B (zh) | 一种多层级用户评论安全审核的模型构建方法 | |
CN105677640A (zh) | 一种面向开放文本的领域概念抽取方法 | |
CN111813933A (zh) | 一种技术图谱中技术领域的自动识别方法 | |
CN113516228A (zh) | 一种基于深度神经网络的网络异常检测方法 | |
CN113360659A (zh) | 一种基于半监督学习的跨领域情感分类方法及系统 | |
CN112711693B (zh) | 一种基于多特征融合的诉讼线索挖掘方法及系统 | |
CN113361624A (zh) | 一种基于机器学习的传感数据质量评估方法 | |
CN112579730A (zh) | 高扩展性、多标签的文本分类方法和装置 | |
CN111984790A (zh) | 一种实体关系抽取方法 | |
CN112164040A (zh) | 基于半监督深度学习算法的钢铁表面缺陷识别方法 | |
CN110597993A (zh) | 一种微博热点话题数据挖掘方法 | |
Wu et al. | Optimization and improvement based on K-Means Cluster algorithm | |
CN113722421B (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN111626508B (zh) | 基于xgboost模型的轨道交通车载数据预测方法 | |
CN113657106A (zh) | 基于归一化词频权重的特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210907 |