CN112905580B

CN112905580B - 一种基于工业大数据的多源异构数据融合系统及方法

Info

Publication number: CN112905580B
Application number: CN202110294350.3A
Authority: CN
Inventors: 杨灵运; 文杰; 王玉洁; 邓生雄; 李琳
Original assignee: Guizhou Casicloud Technology Co ltd
Current assignee: Guizhou Casicloud Technology Co ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2022-03-18
Anticipated expiration: 2041-03-19
Also published as: CN112905580A

Abstract

本发明公开了一种基于工业大数据的多源异构数据融合系统及方法，属于大数据处理技术领域，包括数据采集模块、属性分析模块、服务器和储存模块；所述数据采集模块用于从工业大数据中采集多源异构数据，通过数据采集模块的设置，对采集到的多源异构数据进行清洗，由于获取到的数据是最基本的原始数据，不仅结构多样化而且还携带有很多冗余信息，因此需要对获取到的数据进行清洗，将结构多样、内容杂乱的数据清洗成统一标准格式的数据，并在清洗的过程中过滤掉冗余信息；通过第一分类单元的设置，对多源异构数据进行初步分类，再通过对分类后的数据进行去重，删除不需要的数据，提高储存空间使用率。

Description

一种基于工业大数据的多源异构数据融合系统及方法

技术领域

本发明属于大数据处理技术领域；具体是一种基于工业大数据的多源异构数据融合系统及方法。

背景技术

随着信息技术快速发展，各行业大力推动信息化建设。经过几年发展，企业内部先后建成了各类特定业务相关的信息化系统。由于建设上的多样性，例如实现技术多样性、存储设备不同、数据存储方式多样性等导致存储大量异构。业务相关数据具有以下特点：数据异构型，包括结构化和非结构化；数据多态性，静态数据和动态数据；数据离散型，数据分布在不同的系统中；数据量大，每天都有新数据产生。不同业务部门产生的数据成为信息的“孤岛”，不同业务部门很难实现数据共享，而现实中，各业务部门对数据共享需求越来越强烈，因此多源异构数据融合还是很有必要的。

发明内容

本发明的目的在于提供一种基于工业大数据的多源异构数据融合系统及方法，解决多源异构数据融合的问题。

本发明的目的可以通过以下技术方案实现：

一种基于工业大数据的多源异构数据融合系统，包括数据采集模块、属性分析模块、服务器和储存模块；

所述数据采集模块用于从工业大数据中采集多源异构数据，具体采集方法包括以下步骤：

步骤S11：建立多源异构数据的关键词表，多源异构数据的关键词表是由数据源确定的，数据源的关键词包括数据源输出的数据关键词、数据源载体设备的关键词；

步骤S12：获取多源异构数据，设置预设标准格式，预设标准格式根据实际使用需求设定，包括结构化、非结构化以及半结构化的标准格式；

步骤S13：按照预设标准格式对获取到的多源异构数据进行清洗，过滤掉冗余信息，多源异构数据清洗包括缺失值清洗、格式内容清洗以及逻辑错误清洗，将清洗后的多源异构数据标记为第一处理数据；

步骤S14：对多源异构数据的关键词表进行分类，每类分为四级，包括第一级分类、第二级分类、第三级分类和第四级分类，第一级分类包含第二级分类，第二级分类包含第三级分类，第三级分类包含第四级分类；

所述属性分析模块用于对数据采集模块采集到的多源异构数据进行分析，包括第一分类单元和第二分类单元。

进一步地，缺失值清洗方法具体包括以下步骤：

步骤S21：确定的缺失值范围，计算每个字段的缺失值比例，根据缺失比例和字段重要性，分别制定策略；

步骤S22：删除不需要的字段，根据业务知识和经验推测填充缺失值；

步骤S23：当数据缺失量过多，错误率高时，重新获取数据。

进一步地，所述第一分类单元的具体分类方法包括以下步骤：

步骤S31：获取第一处理数据，将第一处理数据按照属性和用途分为i级，其中i＝1、2、……、n，n为正整数，分级类别对照多源异构数据的关键词表分类；

步骤S32：将分级后的第一处理数据标记为第二处理数据，将第二处理数据与多源异构数据的关键词表分类进行逐级匹配，将匹配到的第二处理数据输入到对应的关键词表分类中；

步骤S33：将输入到对应关键词表分类中的第二处理数据标记为第三处理数据，对第三处理数据进行去重化，将去重化后的第三处理数据标记为第四处理数据。

进一步地，对于步骤S33中对第三处理数据进行去重化的具体方法包括以下步骤：

步骤S41：获取第三处理数据，将第三处理数据标记为j，其中j＝1、2、……、m，m为正整数；

步骤S42：获取第三处理数据按照属性和用途的分级，将第三处理数据分级与所有的第三处理数据分级进行匹配，获得第三处理数据分级匹配度，分级匹配度包括分级相同和分级不同，并将第三处理数据分级匹配度标记为Pj；

步骤S43：获取第三处理数据分级中的最后一级内容，并将第三处理数据分级中的最后一级内容标记为第三处理数据末级内容，将第三处理数据末级内容与所有第三处理数据末级内容进行匹配，获得第三处理数据末级内容相似度，将第三处理数据末级内容相似度标记为Lj，将第三处理数据、第三处理数据分级匹配度和第三处理数据末级内容相似度进行去除量纲取其数值计算；

步骤S44：根据公式Qj＝λ*b1*Pj*(b2*Lj)，获取得到去重值Qi，其中，b1、b2均为比例系数，取值范围为0≤b1≤1，0<b2≤1，λ为修正因子，取值范围为0<λ≤1，当匹配度是分级相同时，b1*Pj＝1，当匹配度是分级不同时，b1*Pj＝0；

步骤S45：设置去重值Qi警戒线，所述去重值Qi警戒线为预设数据；

步骤S46：将超过去重值Qi警戒线的去重值Qi进行标记，建立备份库，将标记后的第三处理数据复制到备份库中；

步骤S47：将标记后的第三处理数据进行删除。

进一步地，所述第二分类单元用于对第四处理数据进行分类，具体方法包括以下步骤：

步骤S51：设置数据用户分类；

步骤S52：实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志，并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据；

步骤S53：通过储存模块获取历史分类数据；历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志，以及对应的第四处理数据在数据用户分类中的类别，并将第四处理数据在数据用户分类中的类别标记为最终分类；

步骤S54：构建人工智能模型；所述人工智能模型至少包括误差逆向传播神经网络、RBF神经网络和深度卷积神经网络中的一种，人工智能模型的输出结果是最终分类；

步骤S55：将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集；所述设定比例包括2：1：1、3：2：1和3：1：1；通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验；将训练完成的人工智能模型标记为预测模型；

步骤S56：将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别；

步骤S57：将第四处理数据对应输入到数据用户分类中。

一种基于工业大数据的多源异构数据融合方法，具体方法包括以下步骤：

步骤一：建立多源异构数据的关键词表，采集多源异构数据，设置预设标准格式，按照预设标准格式对获取到的多源异构数据进行清洗，将清洗后的多源异构数据标记为第一处理数据，对多源异构数据的关键词表进行分类；

步骤二：对数据采集到的多源异构数据进行分析，将第一处理数据按照属性和用途分为i级，将分级后的第一处理数据标记为第二处理数据，将第二处理数据与多源异构数据的关键词表分类进行逐级匹配，将匹配到的第二处理数据输入到对应的关键词表分类中，将输入到对应关键词表分类中的第二处理数据标记为第三处理数据，对第三处理数据进行去重化，将去重化后的第三处理数据标记为第四处理数据；

步骤三：对第四处理数据进行分类；

步骤A1：设置数据用户分类，实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志，并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据；

步骤A2：通过储存模块获取历史分类数据；历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志，以及对应的第四处理数据在数据用户分类中的类别，并将第四处理数据在数据用户分类中的类别标记为最终分类；

步骤A3：构建人工智能模型，人工智能模型的输出结果是最终分类，将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集；所述设定比例包括2：1：1、3：2：1和3：1：1；通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验；将训练完成的人工智能模型标记为预测模型；

步骤A4：将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别，将第四处理数据对应输入到数据用户分类中。

本发明的有益效果：通过数据采集模块的设置，对采集到的多源异构数据进行清洗，由于获取到的数据是最基本的原始数据，不仅结构多样化而且还携带有很多冗余信息，因此需要对获取到的数据进行清洗，将结构多样、内容杂乱的数据清洗成统一标准格式的数据，并在清洗的过程中过滤掉冗余信息；通过第一分类单元的设置，对多源异构数据进行初步分类，再通过对分类后的数据进行去重，删除不需要的数据，提高储存空间使用率；通过第二分类单元的设置，采用神经网络模型的方式对数据进行再次分类，提高分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

步骤S13：按照预设标准格式对获取到的多源异构数据进行清洗，过滤掉冗余信息，多源异构数据清洗包括缺失值清洗、格式内容清洗以及逻辑错误清洗，将清洗后的多源异构数据标记为第一处理数据，由于获取到的数据是最基本的原始数据，不仅结构多样化而且还携带有很多冗余信息，因此需要对获取到的数据进行清洗，将结构多样、内容杂乱的数据清洗成统一标准格式的数据，并在清洗的过程中过滤掉冗余信息；

步骤S14：对多源异构数据的关键词表进行分类，可以按照关键词属性、归属行业类别、词性进行分类，每类分为四级，包括第一级分类、第二级分类、第三级分类和第四级分类，第一级分类包含第二级分类，第二级分类包含第三级分类，第三级分类包含第四级分类，例如自行车可以分为运输工具、陆用车辆、自行车和自行车轮胎；当多源异构数据不够分到下一级的分裂时，就只分到上一级，例如不能分到第四级分类，就分到第三级分类，依次类推；

进一步地，缺失值清洗方法具体包括以下步骤：

步骤S23：当数据缺失量过多，错误率高时，重新获取数据；

所述属性分析模块用于对数据采集模块采集到的多源异构数据进行分析，包括第一分类单元和第二分类单元，所述第一分类单元的具体分类方法包括以下步骤：

步骤S31：获取第一处理数据，将第一处理数据按照属性和用途分为i级，其中i＝1、2、……、n，n为正整数，例如自行车可以分为运输工具、无轨车辆、陆用车辆、自行车、双轮自行车、车架、单横梁型车架等，分级类别对照多源异构数据的关键词表分类；

步骤S33：将输入到对应关键词表分类中的第二处理数据标记为第三处理数据，对第三处理数据进行去重化，将去重化后的第三处理数据标记为第四处理数据；

步骤S45：设置去重值Qi警戒线，所述去重值Qi警戒线为预设数据，预设数据根据实际操作由专家组进行设置，进一步地，去重值Qi警戒线为百分之七十，重值Qi超过百分之七十的均为超过去重值Qi警戒线；

步骤S47：将标记后的第三处理数据进行删除；

所述第二分类单元用于对第四处理数据进行分类，具体方法包括以下步骤：

步骤S51：设置数据用户分类，数据客户分类用于用户根据实际生产需要和产品数据种类进行设置，贴合用户工厂数据使用，同时也可以根据系统推荐进行分类；

步骤S53：通过储存模块获取历史分类数据；历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志，以及对应的第四处理数据在数据用户分类中的类别，并将第四处理数据在数据用户分类中的类别标记为最终分类，第四处理数据在数据用户分类中的类别就是第四处理数据在数据用户分类中属于哪种分类；

步骤S57：将第四处理数据对应输入到数据用户分类中。

如图1所示，一种基于工业大数据的多源异构数据融合方法，具体方法包括以下步骤：

步骤三：对第四处理数据进行分类；

上述公式均是去除量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况设定。

本发明在使用时，建立多源异构数据的关键词表，采集多源异构数据，设置预设标准格式，按照预设标准格式对获取到的多源异构数据进行清洗，将清洗后的多源异构数据标记为第一处理数据，对多源异构数据的关键词表进行分类，对数据采集到的多源异构数据进行分析，将第一处理数据按照属性和用途分为i级，将分级后的第一处理数据标记为第二处理数据，将第二处理数据与多源异构数据的关键词表分类进行逐级匹配，将匹配到的第二处理数据输入到对应的关键词表分类中，将输入到对应关键词表分类中的第二处理数据标记为第三处理数据，对第三处理数据进行去重化，将去重化后的第三处理数据标记为第四处理数据；

设置数据用户分类，实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志，并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据；通过储存模块获取历史分类数据；历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志，以及对应的第四处理数据在数据用户分类中的类别，并将第四处理数据在数据用户分类中的类别标记为最终分类；构建人工智能模型，人工智能模型的输出结果是最终分类，将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集；所述设定比例包括2：1：1、3：2：1和3：1：1；通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验；将训练完成的人工智能模型标记为预测模型；将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别，将第四处理数据对应输入到数据用户分类中。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于工业大数据的多源异构数据融合系统，其特征在于，包括数据采集模块、属性分析模块、服务器和储存模块；

所述属性分析模块用于对数据采集模块采集到的多源异构数据进行分析，包括第一分类单元和第二分类单元；

所述第一分类单元的具体分类方法包括以下步骤：

步骤S51：设置数据用户分类；

步骤S57：将第四处理数据对应输入到数据用户分类中。

2.根据权利要求1所述的一种基于工业大数据的多源异构数据融合系统，其特征在于，缺失值清洗方法具体包括以下步骤：

步骤S23：当数据缺失量过多，错误率高时，重新获取数据。

3.根据权利要求1所述的一种基于工业大数据的多源异构数据融合系统，其特征在于，对于步骤S33中对第三处理数据进行去重化的具体方法包括以下步骤：

步骤S47：将标记后的第三处理数据进行删除。

4.一种基于工业大数据的多源异构数据融合方法，其特征在于，应用于权利要求1至3中任一项所述的一种基于工业大数据的多源异构数据融合系统，具体方法包括以下步骤：

步骤三：对第四处理数据进行分类；