CN113449326A

CN113449326A - 一种基于多源异构数据处理的工业大数据分析系统

Info

Publication number: CN113449326A
Application number: CN202111004498.5A
Authority: CN
Inventors: 王鹂辉; 徐海杰; 卢涛
Original assignee: Beijing Borui Tianyang Technology Co ltd
Current assignee: Beijing Borui Tianyang Technology Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-09-28

Abstract

本发明涉及一种基于多源异构数据处理的工业大数据分析系统，其特征在于，包括，数据采集模块、数据加密模块、数据接收模块、数据存储模块以及数据分析模块；数据采集模块，用以采集工业生产的数据信息；数据加密模块，用以将采集的数据信息进行加密传输；数据接收模块，用以接收经过加密的数据信息，数据存储模块，用以存储经过数据接收模块处理的数据信息；数据分析模块，构建人工智能模型对数据存储模块存储的数据信息进行分析以得到工业生产过程中的预警预测信息、问题信息以及生产能力信息，通过本发明可以更加有效的对工业数据进行分析以使得到的预警预测信息、问题信息以及生产能力信息更加准确，进一步地提升了系统的分析能力。

Description

一种基于多源异构数据处理的工业大数据分析系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于多源异构数据处理的工业大数据分析系统。

背景技术

随着信息技术快速发展，各行业大力推动信息化建设。经过几年发展，企业内部先后建成了各类特定业务相关的信息化系统。由于建设上的多样性，例如实现技术多样性、存储设备不同、数据存储方式多样性等导致存储大量异构。业务相关数据具有以下特点：数据异构型，包括结构化和非结构化；数据多态性，静态数据和动态数据；数据离散型，数据分布在不同的系统中；数据量大，每天都有新数据产生。

目前基于工业数据的分析和应用集中在对数据的统计、分析，采用的方法也是比较基础的统计分析方法，比如计算均值、中位数等，将这些结果进行业务决策参考，现有的工业大数据分析系统中的数据清洗方式为，将获取到的数据首先统一发送到服务器端，再经过繁重的程序编码工作，由服务器端根据预设的数据清洗规则对不同类型的数据进行清洗，这种数据清洗方式效率低下，增加了数据清洗的难度。

发明内容

为此，本发明提供一种基于多源异构数据处理的工业大数据分析系统，用以克服现有技术中数据清洗方式效率低下，增加了数据清洗的难度的问题。

为实现上述目的，本发明提供一种基于多源异构数据处理的工业大数据分析系统，包括，

数据采集模块，用以采集工业生产的数据信息；

数据加密模块，其与所述数据采集模块相连，用以将采集的数据信息进行加密传输；

数据接收模块，其与所述数据加密模块相连，用以接收经过加密的数据信息，数据接收模块包括用以对接收的数据进行清洗的数据清洗单元和用以对清洗后的数据进行分类的数据分类单元；

数据存储模块，其与所述数据接收模块相连，用以存储经过数据接收模块处理的数据信息；

数据分析模块，其与所述数据存储模块相连，用以构建人工智能模型对数据存储模块存储的数据信息进行分析以得到工业生产过程中的预警预测信息、问题信息以及生产能力信息；

所述数据分析模块在进行数据分析时，所述数据清洗单元获取工业数据信息、将数据信息数量记为Wi并将第i条数据信息字符长度记为Li，其中，i为正整数，所述数据清洗单元预设有标准数据信息字符长度L，在进行数据清洗时，所述数据清洗单元依次将各条数据信息长度与标准数据信息字符长度L作比对并根据比对结果删除数据信息冗长的数据和数据信息简短的数据；

所述数据清洗单元还设置有标准关键词字符长度N0，在依次对各条数据信息进行数据清洗时，所述数据清洗单元将第i条数据信息字符长度Li与标准关键词字符长度N0作比对，若Li＜N0，所述数据清洗单元判定该条数据信息内不含有关键词信息，若Li≥N0，所述数据清洗单元判定该条数据信息内含有关键词信息，比对完成后，所述数据清理单元删除不含有关键词的数据信息。

进一步地，所述数据清洗单元预设有标准数据信息字符长度L，包括，第一标准数据信息字符长度L1和第二标准数据信息字符长度L2，在进行数据清洗时，所述数据清洗单元将每条数据信息字符长度Li与标准数据信息字符长度L作比对，其中L1＜L2；

当Li＜L1时，所述数据清洗单元判定该数据信息字符长度简短并对该数据信息进行删除；

当L1≤Li≤L2时，所述数据清洗单元判定该数据信息长度符合标准；

当Li＞L2时，所述数据清洗单元判定该数据信息长度冗长并对该数据信息进行删除；

所述数据清洗单元将处理后的数据信息记为第一处理数据信息。

进一步地，当所述数据清洗单元判定关键词信息时包括且Li＞N0时，所述数据清洗单元对数据信息内的关键词进行判定，从数据信息Wi中的第1个字符开始，选择n个字符，将n个字符与标准关键词字符作比对，若n个字符与标准关键词字符的缺失度大于10%时，所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断，若n个字符与标准关键词字符的缺失度小于等于100%时，所述数据清洗单元判定该数据信息含有关键词；

从数据信息Wi中的第2个字符开始，选择n个字符，将n个字符与标准关键词字符作比对，若n个字符与标准关键词字符的缺失度大于10%，所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断，若n个字符与标准关键词字符的缺失度小于等于10%，所述数据清洗单元判定该数据信息含有关键词；

从数据信息Wi中的第k个字符开始，选择n个字符，将n个字符与标准关键词字符作比对，若n个字符与标准关键词字符的缺失度大于10%时，所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断，若n个字符与标准关键词字符的缺失度小于等于10%时，所述数据清洗单元判定该数据信息含有关键词，其中k＜n。

进一步地，当所述数据清洗单元数据信息不含有关键词时，所述数据清洗单元从数据信息Wi的倒数第1个字符开始，倒数n个字符，将n个字符与标准关键词字符进行比对，若n个字符与标准关键词字符的缺失度大于10%，所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断，若n个字符与标准关键词字符的缺失度小于等于10%，所述数据清洗单元判定该数据信息含有关键词；

所述数据清洗单元从数据信息Wi的倒数第k个字符开始，倒数n个字符，将n个字符与标准关键词字符进行比对，若n个字符与标准关键词字符的缺失度大于10%，所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断，若n个字符与标准关键词字符的缺失度小于等于10%，所述数据清洗单元判定该数据信息含有关键词，其中，k＜n。

进一步地，当n个字符与标准关键词字符的缺失度大于10%时，所述数据清洗单元从数据信息Wi找到出现缺失的第一个字符，从缺失的第二个字符开始重新选择n个字符，所述数据处理将n个字符与标准关键词字符进行比对，若关键词缺失度大于10%，所述数据清洗单元判定该数据不含有关键词并进行进一步判断，若关键词缺失度小于等于10%，所述数据清洗单元判定该数据信息还有关键词。

进一步地，所述数据清洗单元还设置有最大比对次数Y0，所述数据清洗单元进行关键词缺失度对比时，所述数据清洗单元将对比次数记为Y，当所述数据清洗单元完成第j次关键词缺失度对比时，所述数据清洗单元设定Y=j，当Y=Y0时，所述数据清洗单元判定数据信息不含有关键词信息并将该数据信息删除；

所述数据清洗单元将处理后数据信息记为第二处理数据信息。

进一步地，所述数据清洗单元依次选择第二处理数据中的第i个数据信息的字符信息与其他数据信息的字符信息作比对，若重合度大于等于95%，所述数据清洗单元判定为重复信息并保留第i个数据信息的同时删除其他数据信息；

所述数据清洗单元将处理后数据信息记为第三处理数据信息。

进一步地，所述数据分类单元将根据数据信息的结构对第三处理数据信息进行分类；

所述数据分类单元预设有第一种类、第二种类和第三种类；

当数据字符串在第一位置时，所述数据分类单元将该数据信息判定为第一种类；

当数据字符串在第二位置时，所述数据分类单元将该数据判定为第二种类；

当数据字符串在第三位置时，所述数据分类单元将该数据判定为第三种类。

与现有技术相比，本发明的有益效果在于，通过对获取的工业数据信息字符长度以及关键词的判断，实现在对数据的清洗，通过对数据的清洗，可以有效的过滤无用的数据信息，提高了清洗效率，降低了清洗难度，通过对清洗后的数据进行分类，可以更加有效的对工业数据进行分析以使得到的预警预测信息、问题信息以及生产能力信息更加准确，进一步地提升了系统的分析能力。

进一步地，通过对数据信息字符长度的判断，可以精准的去除冗长和过于简短的数据信息，通过对数据信息字符长度的精准判断，可以有效的过滤无用的数据信息，提高了清洗效率，降低了清洗难度。

进一步地，通过正反两个方向对数据信息中的n个字符与标准关键词的字符进行比较，以根据比较结果确定数据信息中是否包含关键字，通过对数据信息的关键字的精准判断，可以有效的过滤无用的数据信息，提高了清洗效率，降低了清洗难度。

进一步地，通过对数据信息中的第i个数据信息字符与其他的数据信息字符进行比较，以根据比较结果确定数据信息中是否包含重复数据，通过对重复数据信息的判断，可以有效的过滤无用的数据信息，提高了清洗效率，降低了清洗难度。

进一步地，根据数据信息的不同结构，可以精准的对数据进行分类，通过对清洗后的数据进行分类，可以更加有效的对工业数据进行分析以使得到的预警预测信息、问题信息以及生产能力信息更加准确，进一步地提升了系统的分析能力。

附图说明

图1为本发明所述一种基于多源异构数据处理的工业大数据分析系统的结构示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示，本发明提供一种基于多源异构数据处理的工业大数据分析系统，包括，数据采集模块、数据加密模块、数据接收模块、数据存储模块以及数据分析模块；

数据采集模块，用以采集工业生产的数据信息；

具体而言，所述数据清洗单元预设有标准数据信息字符长度L，包括，第一标准数据信息字符长度L1和第二标准数据信息字符长度L2，在进行数据清洗时，所述数据清洗单元将每条数据信息字符长度Li与标准数据信息字符长度L作比对，其中L1＜L2；

具体而言，按照预设标准数据字符长度对获取到的数据信息进行清洗，过滤掉冗余和过于简短的数据信息，将清洗后的多源异构数据标记为第一处理数据，由于获取到的数据是最基本的原始数据，不仅结构多样化而且还携带有很多无用信息，因此需要对获取到的数据进行清洗，并在清洗的过程中过滤掉冗余信息。

具体而言，通过对数据信息字符长度的判断，可以精准的去除冗长和过于简短的数据信息，通过对数据信息字符长度的精准判断，可以有效的过滤无用的数据信息，提高了清洗效率，降低了清洗难度。

进一步地，所述数据清洗单元判定关键词信息时包括，当Li＞N0时，所述数据清洗单元对数据信息内的关键词进行判定，从数据信息Wi中的第1个字符开始，选择n个字符，将n个字符与标准关键词字符作比对，若n个字符与标准关键词字符的缺失度大于10%时，所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断，若n个字符与标准关键词字符的缺失度小于等于100%时，所述数据清洗单元判定该数据信息含有关键词；

具体而言，所述数据清洗单元设置有关键词表，所述关键词表可以由数据源或人工确定。

具体而言，通过正反两个方向对数据信息中的n个字符与标准关键词的字符进行比较，以根据比较结果确定数据信息中是否包含关键字，通过对数据信息的关键字的精准判断，可以有效的过滤无用的数据信息，提高了清洗效率，降低了清洗难度。

所述数据分类单元预设有第一种类、第二种类和第三种类；

具体而言，数据分类单元将数据信息的结构分为三个部分，分别为，字符串部分、索引部分、密钥分部，数据分类单元根据字符串部分的位置对数据信息进行精准分类，通过对清洗后的数据进行分类，可以更加有效的对工业数据进行分析以使得到的预警预测信息、问题信息以及生产能力信息更加准确，进一步地提升了系统的分析能力。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多源异构数据处理的工业大数据分析系统，其特征在于，包括：

数据采集模块，用以采集工业生产的数据信息；

2.根据权利要求1所述的基于多源异构数据处理的工业大数据分析系统，其特征在于，所述数据清洗单元预设有标准数据信息字符长度L，包括，第一标准数据信息字符长度L1和第二标准数据信息字符长度L2，在进行数据清洗时，所述数据清洗单元将每条数据信息字符长度Li与标准数据信息字符长度L作比对，其中L1＜L2；

3.根据权利要求1所述的基于多源异构数据处理的工业大数据分析系统，其特征在于，当所述数据清洗单元判定关键词信息且Li＞N0时，所述数据清洗单元对数据信息内的关键词进行判定，从数据信息Wi中的第1个字符开始，选择n个字符，将n个字符与标准关键词字符作比对，若n个字符与标准关键词字符的缺失度大于10%时，所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断，若n个字符与标准关键词字符的缺失度小于等于100%时，所述数据清洗单元判定该数据信息含有关键词；

4.根据权利要求3所述的基于多源异构数据处理的工业大数据分析系统，其特征在于，当所述数据清洗单元数据信息不含有关键词时，所述数据清洗单元从数据信息Wi的倒数第1个字符开始，倒数n个字符，将n个字符与标准关键词字符进行比对，若n个字符与标准关键词字符的缺失度大于10%，所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断，若n个字符与标准关键词字符的缺失度小于等于10%，所述数据清洗单元判定该数据信息含有关键词；

5.根据权利要求3或4所述的基于多源异构数据处理的工业大数据分析系统，其特征在于，当n个字符与标准关键词字符的缺失度大于10%时，所述数据清洗单元从数据信息Wi找到出现缺失的第一个字符，从缺失的第二个字符开始重新选择n个字符，所述数据处理将n个字符与标准关键词字符进行比对，若关键词缺失度大于10%，所述数据清洗单元判定该数据不含有关键词并进行进一步判断，若关键词缺失度小于等于10%，所述数据清洗单元判定该数据信息还有关键词。

6.根据权利要求5所述的基于多源异构数据处理的工业大数据分析系统，其特征在于，所述数据清洗单元还设置有最大比对次数Y0，所述数据清洗单元进行关键词缺失度对比时，所述数据清洗单元将对比次数记为Y，当所述数据清洗单元完成第j次关键词缺失度对比时，所述数据清洗单元设定Y=j，当Y=Y0时，所述数据清洗单元判定数据信息不含有关键词信息并将该数据信息删除；

7.根据权利要求6所述的基于多源异构数据处理的工业大数据分析系统，其特征在于，所述数据清洗单元依次选择第二处理数据中的第i个数据信息的字符信息与其他数据信息的字符信息作比对，若重合度大于等于95%，所述数据清洗单元判定为重复信息并保留第i个数据信息的同时删除其他数据信息；

8.根据权利要求7所述的基于多源异构数据处理的工业大数据分析系统，其特征在于，所述数据分类单元将根据数据信息的结构对第三处理数据信息进行分类；

所述数据分类单元预设有第一种类、第二种类和第三种类；