CN112905845A

CN112905845A - 离散智能制造应用的多源非结构化数据清洗方法

Info

Publication number: CN112905845A
Application number: CN202110286194.6A
Authority: CN
Inventors: 李孝斌; 廖喜年; 石志立; 尹超; 刘宇杰; 凌婕
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-04
Anticipated expiration: 2041-03-17
Also published as: CN112905845B

Abstract

本发明公开了一种离散智能制造应用的多源非结构化数据清洗方法，通过对离散智能制造应用环境下多源非结构化数据的特征化分析和清洗类型的分类，从而按照清洗类型对应数据清洗策略对待清洗的多源非结构化数据进行数据清洗，解决了多源非结构化数据的统一化描述问题和数据分类处理复杂化问题，使得对离散智能制造应用的多源非结构化数据的清洗类型分类处理借助计算机执行成为了可能，且计算机处理耗时较短，具有一定的高效性，并采用了云模型来反映多源非结构化数据的清洗类型，避免了对模糊清洗类型表达不清等问题，使得清洗类型的分类结果更为可靠，为离散智能制造应用的多源非结构化数据清洗提供了一种新的技术解决方案。

Description

离散智能制造应用的多源非结构化数据清洗方法

技术领域

本发明涉及大数据技术和数据清洗技术领域，具体涉及一种离散智能制造应用的多源非结构化数据清洗方法。

背景技术

在当前离散智能制造环境下，大数据的逐渐发展导致了海量数据的收集，清洗这些海量数据并从中提取出有意义的信息就变得很重要。经过近年来的探索和时间，广大科研院所和企业面向离散智能制造环境的数据清洗方面开展了大量的探究及应用，但如何对离散制造环境下的非结构化数据进行清洗，支持后续的数据挖掘的开展，一直是企业迫切需要解决的技术瓶颈，究其原因是多方面的，其中作为非结构化数据清洗的核心——多源非结构化数据清洗手段难题尤为突出，高效准确的数据清洗是准确获取机械设备实时状态信息的重要保障。

数据清洗(Data cleaning)是指对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。按照一定的规则把“脏数据”(不符合要求的数据)“洗掉”(清理掉)，这就是数据清洗。数据清理工作，特别是大数据环境下的数据清理，由于数据处理量巨大，几乎无法单纯依靠人工完成，因此数据清理任务一般是由计算机完成，人工操作加以简单的辅助。

不符合要求的数据主要有缺失数据(不完整的数据)、异常数据(错误的数据)、冗余数据(重复的数据)三种清洗类型，其中每一类数据对应的清晰方法和策略，都已经有大量的研究和应用，在确定待清洗的数据所属的清洗类型，即可按照相应清洗策略执行数据清洗处理。也就是说，在确定好不同清洗类型对应清洗策略的情况下，执行数据清洗的工作任务重心，就是要确定数据所属的清洗类型。

但是，离散智能生产线应用环境中产生的多源非结构化数据，其数据类型主要包括视频数据、图片数据、音频数据和文本数据等生产线设备运行状态数据，如产线质检设备生成的检测文档、刀具切削状态图像、生产设备运行振动、产线监控视频等，这些数据都存在着数据结构不规则或格式不统一，无法直接用二维逻辑数据表进行表达的问题；并且，离散智能制造应用场景中的设备种类繁多，各机械装备资源所产生的数据信息复杂多变，导致现阶段大多数研究在支持离散制造应用下多源非结构化数据清洗方面的普遍性指导意义是有限的。其原因在于：离散智能制造应用下多源非结构化数据的数据来源广泛，缺乏统一的数据格式和标准，数据存储往往都是按照二进制进行计算机存储，导致不同格式的数据分类处理十分复杂；同时，离散制造应用环境是一个动态变化的工业活动环境，而机械设备产生的多源非结构化数据往往都含有时序信息，增加了数据分类和信息维度；这些因素都导致了对离散智能制造应用下的多源非结构化数据的清洗类型确定难度大幅增加，加大了数据分类清洗的难度。

发明内容

针对现有技术存在的上述不足，本发明要解决的技术问题是如何提供一种离散智能制造应用的多源非结构化数据清洗方法，以实现对离散智能制造应用环境下多源非结构化数据的特征化分析和清洗类型的分类，从而帮助提升离散智能制造应用的多源非结构化数据清洗对于计算机处理的可行性和有效性。

为解决上述技术问题，本发明采用了如下的技术方案：

离散智能制造应用的多源非结构化数据清洗方法，包括如下步骤：

1)获取多源非结构化数据，对其进行量化特征的提取，构建多源非结构化数据的量化描述特征，并对多源非结构化数据的量化描述特征进行属性归类，确定多源非结构化数据的各种量化描述特征的特征属性类别；

2)建立所述多源非结构化数据的量化描述特征及其特征属性类别与多源非结构化数据的清洗类型之间的依赖关系，构建具备相应依赖关系的贝叶斯网络，并利用已知清洗类型的多源非结构化数据作为训练样本，对贝叶斯网络进行训练；

3)基于训练的贝叶斯网络设计正向云发生器，生成清洗类型标准云，并根据所述正向云发生器设计相应的逆向云发生器，针对待清洗的多源非结构化数据利用逆向云发生器生成相应的待清洗数据云，将所述待清洗数据云与所述清洗类型标准云进行云滴分布对比，确定所述待清洗的多源非结构化数据的清洗类型；

4)按照所属清洗类型预设的数据清洗策略，对所述待清洗的多源非结构化数据进行数据清洗。

上述离散智能制造应用的多源非结构化数据清洗方法中，作为优选方案，所述步骤2)中，贝叶斯网络的构建方式具体为：

将多源非构建贝叶斯网络结构化数据的量化描述特征作为观测节点，将多源非结构化数据的各种量化描述特征所属的特征属性类别作为中间节点，将多源非结构化数据的清洗类型作为目标节点，构建贝叶斯网络的网络构架，该网络构架作为多源非结构化数据的量化描述特征及其特征属性类别与多源非结构化数据的清洗类型之间的依赖关系。

上述离散智能制造应用的多源非结构化数据清洗方法中，作为优选方案，其特征在于，所述步骤2)中，对贝叶斯网络进行训练的方式具体为：

获取已知清洗类型的多源非结构化数据作为训练样本，提取训练样本的量化描述特征及其所属的特征属性类别，分别输入至所构建的叶斯网络的观测节点和中间节点，将训练样本所属的清洗类型输入至所构建的叶斯网络的目标节点，对贝叶斯网络进行训练，利用训练后的贝叶斯网络进行概率推理，确定贝叶斯网络中各节点间的条件概率，完成对贝叶斯网络进行训练的训练。

上述离散智能制造应用的多源非结构化数据清洗方法中，作为优选方案，所述步骤3)中，清洗类型标准云的生成方式具体为：

设计正向云发生器，以多源非结构化数据的量化描述特征作为定量数据，以多源非结构化数据的清洗类型作为定性指标，并基于训练的贝叶斯网络及其中各节点间的条件概率，确定定性指标与定量数据之间的转化关系和转化概率，生成清洗类型标准云；所述清洗类型标准云表征了不同清洗类型各自对应的云滴分布区域，清洗类型标准云中的云滴表征多源非结构化数据的量化描述特征。

上述离散智能制造应用的多源非结构化数据清洗方法中，作为优选方案，所述步骤3)中，确定待清洗的多源非结构化数据的清洗类型的具体方式为：

根据所述正向云发生器设计相应的逆向云发生器，提取待清洗的多源非结构化数据的量化描述特征作为云滴，通过逆向云发生器生成待清洗数据云，确定待清洗的多源非结构化数据的量化描述特征所对应的云滴在待清洗数据云中的分布位置；

将所述待清洗数据云与所述清洗类型标准云进行云滴分布对比，确定待清洗的多源非结构化数据的量化描述特征所对应的云滴所在的分布位置所属的清洗类型，判定为所述待清洗的多源非结构化数据的清洗类型。

上述离散智能制造应用的多源非结构化数据清洗方法中，作为优选方案，所述多源非结构化数据的数据类型包括视频数据、图片数据、音频数据和文本数据；所述多源非结构化数据的量化描述特征的特征属性类别包括：

基本属性类别，用于描述多源非结构化数据的基础信息特征；

纹理属性类别，用于描述多源非结构化数据的纹理信息特征；

语义属性类别，用于描述多源非结构化数据的语意描述特征。

上述离散智能制造应用的多源非结构化数据清洗方法中，作为优选方案，归属于所述基本属性类别的量化描述特征包括多源非结构化数据的名称、创建设备、创建时间中的一种或多种；

归属于所述纹理属性类别的量化描述特征包括多源非结构化数据的数据类型、视频或图片数据的色彩分布、视频或图片数据的亮度分布、视频数据的关键帧特征、视频数据或音频数据的时间流、音频数据的音调特征、音频数据的音色特征、音频数据的包络特征、文本数据的关键字、文本数据的关键段落特征中的一种或多种；

归属于所述语义属性类别的量化描述特征包括多源非结构化数据的表现主题、作者信息、评价信息、状态描述信息、分享讨论信息、受众群体信息中的一种或多种。

上述离散智能制造应用的多源非结构化数据清洗方法中，作为优选方案，采用多源非结构化数据量化描述模型，来表征多源非结构化数据的量化描述特征及其归属的特征属性类别；所述多源非结构化数据量化描述模型通过基本属性类别特征数据集合BD、纹理属性类别特征数据集合LD和语义属性类别特征数据集合SD来分别描述基本属性类别、纹理属性类别和语义属性类别的量化描述特征；其中：

归属于基本属性类别特征数据集合BD的每个量化描述特征所含有特征信息项包括基本属性类别标号BD_id、基本属性类别特征项BD_set和基本属性类别特征数据内容BD_details；

归属于纹理属性类别特征数据集合LD的每个量化描述特征所含有特征信息项包括纹理属性类别标号LD_id、纹理属性特征名称LD_name、多源非结构化数据所属数据类型LD_class、纹理属性特征数据结构LD_type和纹理属性特征数据内容LD_details；

归属于语义属性类别特征数据集合SD的每个量化描述特征所含有特征信息项包括语义属性类别标号SD_id、语义属性类别特征类型SD_type和多源非结构化数据语义属性类别关键词SD_keyword。

相比于现有技术，本发明的有益效果在于：

1、本发明离散智能制造应用的多源非结构化数据清洗方法，通过对离散智能制造应用环境下多源非结构化数据的特征化分析和清洗类型的分类，从而按照清洗类型对应数据清洗策略对待清洗的多源非结构化数据进行数据清洗，解决了多源非结构化数据的统一化描述问题和数据分类处理复杂化问题，使得对离散智能制造应用的多源非结构化数据的清洗类型分类处理借助计算机执行成为了可能。

2、在本发明的多源非结构化数据清洗方法中应用动态贝叶斯网络推理出数据清洗类别并进行清洗类型分类处理的计算机处理耗时较短，具有一定的高效性。

3、在本发明的多源非结构化数据清洗方法中，采用了云模型来反映多源非结构化数据的清洗类型，考虑了清洗类型判断的模糊性，避免了仅采用贝叶斯网络可能出现对模糊清洗类型表达不清等问题，使得清洗类型的分类结果更为可靠。

4、本发明离散智能制造应用的多源非结构化数据清洗方法，有效提升了离散智能制造应用的多源非结构化数据清洗对于计算机处理的可行性和有效性，为离散智能制造应用的多源非结构化数据清洗提供了一种新的技术解决方案。

附图说明

图1为本发明离散智能制造应用的多源非结构化数据清洗方法的流程图。

图2为离散智能生产线应用环境中多源非结构化数据的构成情况示例图。

图3为本发明仿真验证实施例中利用训练样本对贝叶斯网络训练后的训练结果数据表。

图4为本发明仿真验证实施例中建立的清洗类型标准云示意图。

图5为本发明仿真验证实施例中第一组测试图像和第二组测试图像。

图6为本发明仿真验证实施例中第一组测试图像数据的多源非结构化数据量化描述模型信息表。

图7为本发明仿真验证实施例中第二组测试图像数据的多源非结构化数据量化描述模型信息表。

图8为本发明仿真验证实施例中第一组测试图像和第二组测试图像的待清洗数据云与清洗类型标准云的云滴分布对比图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

本发明提供了一种离散智能制造应用的多源非结构化数据清洗方法，如图1所示，该方法包括如下步骤：

可以看到，在本发明离散智能制造应用的多源非结构化数据清洗方法中，先通过对多源非结构化数据进行特征量化描述，并离散分类为不同的特征属性类别；然后，建立多源非结构化数据的量化描述特征、特征属性类别与清洗类型之间的依赖关系，构建贝叶斯网络，并利用已知清洗类型的多源非结构化数据进行训练，从而基于训练的贝叶斯网络设计出正向云发生器和相应的逆向云发生器，利用正向云发生器生成清洗类型标准云，通过清洗类型标准云的云滴不同分布区域来表征指示不同清洗类型，而针对待清洗的多源非结构化数据利用逆向云发生器生成相应的待清洗数据云，再与清洗类型标准云进行云滴分布位置的对比，即可确定待清洗的多源非结构化数据属于哪一个清晰类型，从而实现对多源非结构化数据的清洗类型分类，以便于采用对应数据清洗策略对其进行清洗。这样的处理方法和过程，使得对离散智能制造应用的多源非结构化数据的清洗类型分类处理借助计算机执行成为了可能，加之数据清洗策略的执行也是已经能够依赖计算机执行的成熟方法，这样，便有效提升了离散智能制造应用的多源非结构化数据清洗对于计算机处理的可行性和有效性。

下面将逐层的对本发明中故障诊断模型的建立过程以及多源非结构化数据清洗方法逐层的进行展开说明。

(1)多源非结构化数据描述模型

离散智能生产线应用环境中产生的多源非结构化数据，其数据类型主要包括视频数据、图片数据、音频数据和文本数据等生产线设备运行状态数据，如产线质检设备生成的检测文档、刀具切削状态图像、生产设备运行振动、产线监控视频等，初步分析的离散智能生产线应用环境中多源非结构化数据的构成情况，如图2所示；这些数据都存在着数据结构不规则或格式不统一，无法直接用二维逻辑数据表进行表达的问题。

针对这些多源非结构化数据的数据清理，首先要解决的就是如何使得不同的多源非结构化数据实现数据描述统一化的问题。为此，本发明采用的是对多源非结构化数据进行量化特征的提取，构建多源非结构化数据的量化描述特征，并且由于离散智能生产线产生的多源非结构化数据存在实时性、单个文件小、数量多等特点，本发明还对多源非结构化数据的量化描述特征进行属性归类，确定多源非结构化数据的各种量化描述特征的特征属性类别，从而缓解数据描述的信息量冗杂的问题；由此，通过多源非结构化数据的量化描述特征及其特征属性类别，来进行多源非结构化数据的统一化数据描述。

针对于视频数据、图片数据、音频数据和文本数据这几种主要的多源非结构化数据类型，可优选采用基本属性类别、纹理属性类别和语义属性类别这三个特征属性类别来分类描述多源非结构化数据的量化描述特征；具体实施中，又可以采用多源非结构化数据量化描述模型来对这三种特征属性类别及归属其类别的量化描述特征来加以表征描述，可构建多源非结构化数据量化描述模型UD，通过基本属性类别特征数据集合BD、纹理属性类别特征数据集合LD和语义属性类别特征数据集合SD来分别描述基本属性类别、纹理属性类别和语义属性类别的量化描述特征，即：

UD＝(BD,LD,SD) (1)

其中：基本属性类别特征数据集合BD表征基本属性类别的量化描述特征的集合，用于描述多源非结构化数据的基础信息特征，例如多源非结构化数据的名称、创建设备、创建时间等之中的一种或多种。每个归属于基本属性类别特征数据集合BD的量化描述特征，可以由一个三元组来描述其中含有的三种特征信息项，即：

BD＝{BD_id,BD_set,BD_details} (2)

BD_id代表基本属性类别标号；

BD_set代表基本属性类别特征项，例如：多源非结构化数据的名称、创建设备、创建时间等；

BD_details代表基本属性类别特征内容数据。

纹理属性类别特征数据集合LD表征纹理属性类别的量化描述特征的集合，用于描述多源非结构化数据的纹理信息特征，例如多源非结构化数据的数据类型、视频或图片数据的色彩分布、视频或图片数据的亮度分布、视频数据的关键帧特征、视频数据或音频数据的时间流、音频数据的音调特征、音频数据的音色特征、音频数据的包络特征、文本数据的关键字、文本数据的关键段落特征等之中的一种或多种。每个归属于纹理属性类别特征数据集合LD的量化描述特征，可以由一个5元组来描述其中含有的五种特征信息项，即：

LD＝{LD_id,LD_name,LD_class,LD_type,LD_details} (3)

LD_id代表纹理属性类别标号；

LD_name代表纹理属性特征名称，如音调、颜色、纹理、关键帧等；

LD_class代表多源非结构化数据所属数据类型，例如：文本、音频、图像、视频；

LD_type代表纹理属性特征数据结构，如颜色直方图，灰度共生矩阵等；

LD_details代表纹理属性特征数据内容。

语义属性类别特征数据集合SD表征语义属性类别的量化描述特征的集合，用于描述多源非结构化数据的语意描述特征，例如多源非结构化数据的表现主题、作者信息、评价信息、状态描述信息、分享讨论信息、受众群体信息等之中的一种或多种。每个归属于语义属性类别特征数据集合SD的量化描述特征，可以由一个3元组来描述其中含有的三种特征信息项，即：

SD＝{SD_id,SD_type,SD_keyword} (4)

SD_id代表语义属性类别标号；

SD_type代表语义属性类别特征类型，如：主题、视频特征含义；

SD_keyword代表多源非结构化数据语义属性类别关键词，可以是多源非结构化数据语义属性类别的一个或多个关键词。

在具体实施中，可以对视频、图片、音频、文本等多源非结构化数据进行量化特征的提取后加以标注，借助软件编程，构建描述关键词码本，然后输入多源非结构化数据及其量化描述特征信息，对照关键词码本匹配描述关键信息，从而建立上述的多源非结构化数据量化描述模型，来实现对多源非结构化数据多源非结构化数据的量化描述特征及其归属的特征属性类别的统一化数据结构描述，并且借助上述多源非结构化数据量化描述模型，也便于计算机对多源非结构化数据的量化描述特征及其归属的特征属性类别进行机器识别和处理。

(2)动态云贝叶斯网络基础介绍

(2.1)动态贝叶斯网络

动态贝叶斯网络是将静态贝叶斯网络与时间信息结合，形成处理时序信息的推理和表达模型。常用的构建方式，是将多源非结构化数据的特征要素作为网络节点，实现贝叶斯网络的构建。由于离散制造过程中，多源非结构化数据大多带有时序信息，故可以将静态贝叶斯网络加入时序信息推导到含T个时间段的动态贝叶斯网络：

式中：P(l_ti,X_t1,X_t2,…,X_tj)代表动态贝叶斯网络的后验概率；t∈[1,T]；l_ti为第t个时间段第i个父节点的概率值；X_tk为第t个时间段第k个子节点的概率值；P(l_ti)为父节点的先验概率分布；P(X_tk|l_ti)为子节点的概率分布。根据t时段各级节点的初始条件概率和各节点之间的关系，通过联结树算法推理出t时刻所有节点的联合概率分布。

(2.2)云模型

云模型的基本定义是：存在一个定量论域U，U上存在一个定性概念I。若某一定量值x∈U，且为I的一次随机实现，x对I的确定度μ_I(x)∈[0,1]是具有稳定趋向的随机数，则称x在U上的分布为云，x为云滴，表示为drop(x,μ_I(x))。云模型通过期望Ex、熵En、超熵He三个数字特征来表示云滴的分布特征，云模型有两种云发生器，完成定性指标和定量数据之间的转化，即正向云发生器和逆向云发生器；正向云发生器是根据已知的期望Ex，熵En，超熵He等数字特征和云滴数，生成足够的云滴，完成定性指标转化为定量数据；而逆向云发生器是已知一定数量的云滴，计算出云滴的期望Ex，熵En，超熵He等数字特征，完成定量数据转化为定性指标。

(3)对多源非结构化数据的清洗处理流程

本发明的离散智能制造应用的多源非结构化数据清洗方法中，在对多源非结构化数据进行量化特征的提取和特征属性类别划分后，就需要通过设计和建立符合多源非结构化数据清洗特点的动态贝叶斯网络结构，来进行数据推理和分类处理。

本发明在构建贝叶斯网络时，是建立所述多源非结构化数据的量化描述特征及其特征属性类别与多源非结构化数据的清洗类型之间的依赖关系，根据依赖关系来构建贝叶斯网络；然后，利用已知清洗类型的多源非结构化数据作为训练样本，对贝叶斯网络进行训练，从而基于训练的贝叶斯网络设计正向云发生器，生成清洗类型标准云，并根据所述正向云发生器设计相应的逆向云发生器，针对待清洗的多源非结构化数据利用逆向云发生器生成相应的待清洗数据云，将所述待清洗数据云与所述清洗类型标准云进行云滴分布对比，确定所述待清洗的多源非结构化数据的清洗类型，从而采用其清洗类型相对应的数据清洗策略对待清洗的多源非结构化数据进行数据清洗处理。

(3.1)动态贝叶斯网络结构设计

本发明在贝叶斯网络构架的构建中，具体构建方式是，将多源非构建贝叶斯网络结构化数据的量化描述特征作为观测节点，如BD_id、BD_set、BD_details等；将多源非结构化数据的各种量化描述特征所属的特征属性类别作为中间节点，即观测节点的子节点；将多源非结构化数据的清洗类型作为目标节点，即中间节点的子节点；由此，构建了贝叶斯网络的网络构架，该网络构架作为多源非结构化数据的量化描述特征及其特征属性类别与多源非结构化数据的清洗类型之间的依赖关系。

本发明提取动态贝叶斯网络样本集不变的时间段内的数据，判断非结构化数据的清洗问题，判断依据是离散智能生产线在工作过程中，会产生大量的非结构化数据，利用相邻的非结构化数据的差别度，来判断数据的清洗问题；判断流程是，依据专家知识、实验验证数据等先验知识，确定贝叶斯网络结构中子节点相对于父节点的初始权重，确定贝叶斯网络的初始条件概率表，再通过训练数据集对初始条件概率表进行动态修正，得到训练后的贝叶斯网络；最后，将各描述属性集合的变化率经云模型转化后，设计正向云发生器，以多源非结构化数据的量化描述特征作为定量数据，以多源非结构化数据的清洗类型作为定性指标，并基于训练的贝叶斯网络及其中各节点间的条件概率，确定定性指标与定量数据之间的转化关系和转化概率，生成清洗类型标准云，该清洗类型标准云表征了不同清洗类型各自对应的云滴分布区域，清洗类型标准云中的云滴表征多源非结构化数据的量化描述特征；此后，针对待清洗的多源非结构化数据，则相应的根据正向云发生器设计相应的逆向云发生器，提取待清洗的多源非结构化数据的量化描述特征作为云滴，通过逆向云发生器生成待清洗数据云，确定待清洗的多源非结构化数据的量化描述特征所对应的云滴在待清洗数据云中的分布位置，从而根据其云滴分布位置与清洗类型标准云加以比对，则可以进行清洗类型的判断。

(3.2)动态贝叶斯网络参数确定

动态贝叶斯网络的网络参数包括先验概率和条件概率。先验概率是指以往的经验和先验知识来定义的概率，而如果在动态贝叶斯网络开始推理前，还没有获得已知的先验知识，那么可以假设纹理属性类别、语义属性类别和基本属性类别三类属性集合的权重相等，先验概率由节点的同级节点数决定：

式中：P(X_i)是节点X_i的先验概率，m是节点X_i的同一层节点数总数。

本发明根据证据加权分析法来动态推断动态贝叶斯网络节点参数，在先验概率证据的基础上，节点之间的相关概率为：

式中：X为中间节点的概率，即对应多源非结构化数据量化描述模型中特征属性类别的权重；pre为先验知识，即前一时间段内同一节点的权重；P(X|pre)为节点之间的相关概率；P(X₁|pre),P(X₂|pre),···,P(X_m|pre)表示在拥有先验知识的条件下m个节点的相关概率，m为同一层节点数总数。而动态贝叶斯网络的父节点在中间节点的初始权重，即属性在对应属性集合中的初始权重，是由专家判断或者已验证数据等先验知识提供的，存在不符合实际的风险，故在式(8)中引入修正参数ω，ω初始为1，来规避使用先验知识设计初始条件概率中的风险，将式(8)写成：

表示拥有先验知识的条件下m个节点经过数据训练修正后的相关概率，ω₁，ω₂，…，ω₂分别表示m个节点各自对应的修正参数。当多源非结构化数据量化描述模型对非结构化异构数据进行描述之后，非结构化异构数据的需清洗概率可表示为：

式中：

来源于观测节点；P(pre)为多源非结构化数据的先验概率，l表示观测节点的概率，即对应多源非结构化数据量化描述模型中量化描述特征的权重。

条件概率是贝叶斯网络后验概率推理的关键，体现了各节点之间的相互关系。本发明采用从已知清洗类型的多源非结构化数据的数据库中随机选取训练数据来构建初始训练数据集，依据先验知识构建训练前的初始条件概率表，再按照式(9)引入修正参数ω，使用训练数据集训练贝叶斯网络来调整修正参数，得到训练后的动态贝叶斯网络的初始条件概率表；在完成一时间段的数据清洗类型问题训练判断后，依照判断结果对修正参数ω进行更新，实现动态贝叶斯网络的条件概率表的动态变化，对贝叶斯网络进行训练。

(3.3)清洗类型标准云的构建

为了判断非结构化数据的清洗策略问题，本发明针对多源非结构化数据的清洗类型构建一个云族，针对冗余、缺失、异常三个清洗类型的划分，由于缺失和异常数据的清洗策略相近，因此可以将缺失和异常数据划分到相同类型区间，因此可设计为五个清洗类型区间：冗余、可能冗余、正常、可能异常/可能缺失、异常/缺失；根据训练后的贝叶斯网络进行概率推理训练后得到的贝叶斯网络，设计正向云发生器，以多源非结构化数据的量化描述特征作为定量数据，以多源非结构化数据的清洗类型作为定性指标，并基于训练的贝叶斯网络及其中各节点间的条件概率，确定定性指标与定量数据之间的转化关系和转化概率，生成清洗类型标准云，该清洗类型标准云表征了不同清洗类型各自对应的云滴分布区域，清洗类型标准云中的云滴表征多源非结构化数据的量化描述特征。由此，便可以使用清洗类型标准云作为清洗类型的评判依据。

(3.4)待清洗数据云的构建和数据清洗

针对待清洗的多源非结构化数据，根据正向云发生器设计相应的逆向云发生器，提取待清洗的多源非结构化数据的量化描述特征作为云滴，通过逆向云发生器生成待清洗数据云，确定待清洗的多源非结构化数据的量化描述特征所对应的云滴在待清洗数据云中的分布位置，从而将所述待清洗数据云与所述清洗类型标准云进行云滴分布对比，确定待清洗的多源非结构化数据的量化描述特征所对应的云滴所在的分布位置所属的清洗类型，判定为所述待清洗的多源非结构化数据的清洗类型。由此，便可以按照所属清洗类型预设的数据清洗策略，对待清洗的多源非结构化数据进行数据清洗。

(4)仿真验证实施例

这里，通过一个仿真验证实施例，对本发明多源非结构化数据清洗方法的可行性和有效性加以验证。

本实施例以离散智能生产线产生的图像类型的非结构化数据为例，对本发明方法的多源非结构化数据清洗方法进行算例验证。在数学仿真软件Matlab环境下，利用BNT工具箱建立动态贝叶斯网络，引用公开的图像数据库中的20组数据，每组数据2张图片，一共40张图片，作为算例验证素材，其中15组作为训练数据，5组测试数据，邀请专家对动态贝叶斯网络中的各节点之间的权重进行多次独立评定，取多次独立评定的均值作为该节点的初始权重，初定各节点的修正参数ω为1，构建各节点的初始条件概率表，如表1、表2所示。

表1观测节点和中间节点间的初始条件概率表

表2中间节点和目标节点间的初始条件概率表

获取初始条件概率表后，本发明将15组训练图像导入动态贝叶斯网络，对初始条件概率表进行训练，训练过程中对各节点的修正参数进行修改，训练结果如图4所示，训练后的条件概率表如表3，表4所示。

表3训练后观测节点和中间节点间的条件概率表

表4训练后中间节点和目标节点间的条件概率表

为了判断非结构化数据的清洗问题，针对三种待数据清洗类型构建一个云族，划分五个清洗类型区间：冗余、可能冗余、正常、可能异常/可能缺失、异常/缺失；冗余清洗类型表示与其他数据冗余度高，需要进行冗余数据清洗处理；可能冗余清洗类型表示与其他数据冗余度较高，需要进一步的判断是否需要进行冗余数据清洗处理；正常清洗类型表示属于正常数据，无需进行数据清洗处理；可能异常/可能缺失清洗类型表示与其他数据偏差度较高，需要进一步的判断是否需要进行异常或缺失数据清洗处理；异常/缺失清洗类型表示与其他数据偏差度高，需要进行异常或缺失数据清洗处理。

本发明方法根据训练后的贝叶斯网络，设计正向云发生器，将各清洗类型转换为相应的云模型，构建清洗类型标准云。关于建立清洗类型标准云中的期望Ex、熵En、超熵He的三个数字特征的计算，定义某一清洗类型的论域区间为U∈[X_min,X_max]，这里的X_min、X_max分别表示云模型中论域区间的下限值和上限值；依照正态云的“3En规则”，得到Ex＝(X_min+X_max)÷2；定义En为清洗类型论域宽度的1/6即En＝(X_max-X_min)÷6，而He是表示云滴的离散程度，设定He＝En/10；从而计算得到清洗类型标准云的期望Ex、熵En、超熵He的三个数字特征见表5。

表5

由此生成的清洗类型标准云如图4所示。从图4所示的清洗类型标准云中，可以清楚的看到冗余、可能冗余、正常、可能异常/可能缺失、异常/缺失五个清洗类型的云滴分布区域。

在五组测试图像中，本实施例选择第一组、第二组数据对其判断流程进行详细阐述，其余组别以识别结果进行展示。

五组测试图像中，第一组是图5中的(a)图和(b)图，进行异常数据的判断，图5中(a)图是正常检测图像，作为对比数据，(b)图是由于离散智能生产线在运行过程中的振动等原因导致检测图像收集的出现短暂偏差，下一时段恢复正常，为异常检测图像，作为测试数据。第二组是图5中的(c)图和(d)图，均为离散智能生产线同一时间段收集的检测图像，图(c)作为对比数据，图(d)作为测试数据。多源非结构化数据量化描述模型对两组测试图像，对第一组测试图像中(a)图和(b)图的量化描述特征及其特征属性类别划分如图6所示，对第二组测试图像中(c)图和(d)图的量化描述特征及其特征属性类别划分如图7所示，第一组测试图像中的灰度共生矩阵特征具体如表6所示，第二组测试图像中的灰度共生矩阵特征具体如表7所示。

表6第一组图像的灰度共生矩阵

表7第二组图像的灰度共生矩阵

两组测试图像经过多源非结构化数据量化描述模型描述，得到两组图像的量化描述特征及其特征属性类别信息。本实施例采用欧式距离来比较图像间纹理属性的差别，即对图像间的颜色直方图进行分析，将颜色直方图的RGB三个值进行精简，把0-255分割为25个小区域，便于观察和减少数据量，在25个小区域中随机抽取75个点进行RGB三通道归一值的采集，综合图像间RGB直方图的通道值进行欧式距离的计算；而基本属性和语义属性通过语义距离来比较分析；根据分析欧式距离和语义距离的结果，得到两组测试数据在基本属性、语义属性和纹理属性的变化率，输入到训练过的动态贝叶斯网络中；在数学仿真环境下仿真运算，选择联结树算法作为推理算法，推理的结果是：第一组的测试图像属于冗余数据、异常数据和缺失数据的概率分别为0.0024，0.7324，0.2652；第二组的测试图像属于冗余数据、异常数据和缺失数据的概率分别为0.8432，0.0923，0.0645。然后，根据前述的正向云发生器设计相应的逆向云发生器，将这些量化描述特征信息作为云滴，通过逆向云发生器生成两组测试图像的待清洗数据云，确定两组测试图像数据的量化描述特征所对应的云滴在待清洗数据云中的分布位置；将两组测试图像数据的待清洗数据云与前述的清洗类型标准云进行云滴分布对比，其对比图如图8所示。对第一组、第二组测试图像数据的清洗类型判断处理分别用时39ms和46ms。

从图8可以看到，根据云滴分布对比，第一组测试图像数据的清洗类型属于异常/缺失数据类型，第二组测试图像数据的清洗类型属于冗余类型。

在本实施例中，采用本发明方法第三、第四、第五组测试图像的清洗类型判定结果分别为异常/缺失数据类型(第三组)、冗余类型(第四组)、冗余类型(第五组)。

而根据五组测试图像的已知清洗类型来看，第一组测试图像数据属于异常数据类型，第二组测试图像数据属于冗余数据类型，第一组测试图像数据属于缺失数据类型，第二组测试图像数据属于冗余数据类型，第一组测试图像数据属于冗余数据类型。由此可见，本发明数据清洗方法对于多源非结构化数据的清洗类型划分和归类是较为准确的，而且动态贝叶斯网络推理出数据清洗类别并进行清洗类型分类处理的计算机处理耗时较短，证明了本发明方法通过计算机处理执行的可行性和有效性，且具有一定的高效性；并且，在本发明离散智能制造应用的多源非结构化数据清洗方法中，采用了云模型来反映多源非结构化数据的清洗类型，考虑了清洗类型判断的模糊性，避免了仅采用贝叶斯网络可能出现对模糊清洗类型表达不清等问题，验证结果也表明本发明方法更为可靠。

综上所述，可以看到，本发明离散智能制造应用的多源非结构化数据清洗方法，通过对离散智能制造应用环境下多源非结构化数据的特征化分析和清洗类型的分类，从而按照清洗类型对应数据清洗策略对待清洗的多源非结构化数据进行数据清洗，解决了多源非结构化数据的统一化描述问题和数据分类处理复杂化问题，使得对离散智能制造应用的多源非结构化数据的清洗类型分类处理借助计算机执行成为了可能；同时，在本发明的多源非结构化数据清洗方法中应用动态贝叶斯网络推理出数据清洗类别并进行清洗类型分类处理的计算机处理耗时较短，具有一定的高效性；并且，在本发明的多源非结构化数据清洗方法中，采用了云模型来反映多源非结构化数据的清洗类型，考虑了清洗类型判断的模糊性，避免了仅采用贝叶斯网络可能出现对模糊清洗类型表达不清等问题，使得清洗类型的分类结果更为可靠。因此，本发明离散智能制造应用的多源非结构化数据清洗方法，有效提升了离散智能制造应用的多源非结构化数据清洗对于计算机处理的可行性和有效性，为离散智能制造应用的多源非结构化数据清洗提供了一种新的技术解决方案。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims

1.离散智能制造应用的多源非结构化数据清洗方法，其特征在于，包括如下步骤：

2.根据权利要求1所述离散智能制造应用的多源非结构化数据清洗方法，其特征在于，所述步骤2)中，贝叶斯网络的构建方式具体为：

3.根据权利要求2所述离散智能制造应用的多源非结构化数据清洗方法，其特征在于，所述步骤2)中，对贝叶斯网络进行训练的方式具体为：

4.根据权利要求1所述离散智能制造应用的多源非结构化数据清洗方法，其特征在于，所述步骤3)中，清洗类型标准云的生成方式具体为：

5.根据权利要求4所述离散智能制造应用的多源非结构化数据清洗方法，其特征在于，所述步骤3)中，确定待清洗的多源非结构化数据的清洗类型的具体方式为：

6.根据权利要求1所述离散智能制造应用的多源非结构化数据清洗方法，其特征在于，所述多源非结构化数据的数据类型包括视频数据、图片数据、音频数据和文本数据；所述多源非结构化数据的量化描述特征的特征属性类别包括：

7.根据权利要求6所述离散智能制造应用的多源非结构化数据清洗方法，其特征在于，归属于所述基本属性类别的量化描述特征包括多源非结构化数据的名称、创建设备、创建时间中的一种或多种；

8.根据权利要求7所述离散智能制造应用的多源非结构化数据清洗方法，其特征在于，采用多源非结构化数据量化描述模型，来表征多源非结构化数据的量化描述特征及其归属的特征属性类别；所述多源非结构化数据量化描述模型通过基本属性类别特征数据集合BD、纹理属性类别特征数据集合LD和语义属性类别特征数据集合SD来分别描述基本属性类别、纹理属性类别和语义属性类别的量化描述特征；其中：