CN112905580A - 一种基于工业大数据的多源异构数据融合系统及方法 - Google Patents
一种基于工业大数据的多源异构数据融合系统及方法 Download PDFInfo
- Publication number
- CN112905580A CN112905580A CN202110294350.3A CN202110294350A CN112905580A CN 112905580 A CN112905580 A CN 112905580A CN 202110294350 A CN202110294350 A CN 202110294350A CN 112905580 A CN112905580 A CN 112905580A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- processing data
- processing
- source heterogeneous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于工业大数据的多源异构数据融合系统及方法,属于大数据处理技术领域,包括数据采集模块、属性分析模块、服务器和储存模块;所述数据采集模块用于从工业大数据中采集多源异构数据,通过数据采集模块的设置,对采集到的多源异构数据进行清洗,由于获取到的数据是最基本的原始数据,不仅结构多样化而且还携带有很多冗余信息,因此需要对获取到的数据进行清洗,将结构多样、内容杂乱的数据清洗成统一标准格式的数据,并在清洗的过程中过滤掉冗余信息;通过第一分类单元的设置,对多源异构数据进行初步分类,再通过对分类后的数据进行去重,删除不需要的数据,提高储存空间使用率。
Description
技术领域
本发明属于大数据处理技术领域;具体是一种基于工业大数据的多源异构数据融合系统及方法。
背景技术
随着信息技术快速发展,各行业大力推动信息化建设。经过几年发展,企业内部先后建成了各类特定业务相关的信息化系统。由于建设上的多样性,例如实现技术多样性、存储设备不同、数据存储方式多样性等导致存储大量异构。业务相关数据具有以下特点:数据异构型,包括结构化和非结构化;数据多态性,静态数据和动态数据;数据离散型,数据分布在不同的系统中;数据量大,每天都有新数据产生。不同业务部门产生的数据成为信息的“孤岛”,不同业务部门很难实现数据共享,而现实中,各业务部门对数据共享需求越来越强烈,因此多源异构数据融合还是很有必要的。
发明内容
本发明的目的在于提供一种基于工业大数据的多源异构数据融合系统及方法,解决多源异构数据融合的问题。
本发明的目的可以通过以下技术方案实现:
一种基于工业大数据的多源异构数据融合系统,包括数据采集模块、属性分析模块、服务器和储存模块;
所述数据采集模块用于从工业大数据中采集多源异构数据,具体采集方法包括以下步骤:
步骤S11:建立多源异构数据的关键词表,多源异构数据的关键词表是由数据源确定的,数据源的关键词包括数据源输出的数据关键词、数据源载体设备的关键词;
步骤S12:获取多源异构数据,设置预设标准格式,预设标准格式根据实际使用需求设定,包括结构化、非结构化以及半结构化的标准格式;
步骤S13:按照预设标准格式对获取到的多源异构数据进行清洗,过滤掉冗余信息,多源异构数据清洗包括缺失值清洗、格式内容清洗以及逻辑错误清洗,将清洗后的多源异构数据标记为第一处理数据;
步骤S14:对多源异构数据的关键词表进行分类,每类分为四级,包括第一级分类、第二级分类、第三级分类和第四级分类,第一级分类包含第二级分类,第二级分类包含第三级分类,第三级分类包含第四级分类;
所述属性分析模块用于对数据采集模块采集到的多源异构数据进行分析,包括第一分类单元和第二分类单元。
进一步地,缺失值清洗方法具体包括以下步骤:
步骤S21:确定的缺失值范围,计算每个字段的缺失值比例,根据缺失比例和字段重要性,分别制定策略;
步骤S22:删除不需要的字段,根据业务知识和经验推测填充缺失值;
步骤S23:当数据缺失量过多,错误率高时,重新获取数据。
进一步地,所述第一分类单元的具体分类方法包括以下步骤:
步骤S31:获取第一处理数据,将第一处理数据按照属性和用途分为i级,其中i=1、2、……、n,n为正整数,分级类别对照多源异构数据的关键词表分类;
步骤S32:将分级后的第一处理数据标记为第二处理数据,将第二处理数据与多源异构数据的关键词表分类进行逐级匹配,将匹配到的第二处理数据输入到对应的关键词表分类中;
步骤S33:将输入到对应关键词表分类中的第二处理数据标记为第三处理数据,对第三处理数据进行去重化,将去重化后的第三处理数据标记为第四处理数据。
进一步地,对于步骤S33中对第三处理数据进行去重化的具体方法包括以下步骤:
步骤S41:获取第三处理数据,将第三处理数据标记为j,其中j=1、2、……、m,m为正整数;
步骤S42:获取第三处理数据按照属性和用途的分级,将第三处理数据分级与所有的第三处理数据分级进行匹配,获得第三处理数据分级匹配度,分级匹配度包括分级相同和分级不同,并将第三处理数据分级匹配度标记为Pj;
步骤S43:获取第三处理数据分级中的最后一级内容,并将第三处理数据分级中的最后一级内容标记为第三处理数据末级内容,将第三处理数据末级内容与所有第三处理数据末级内容进行匹配,获得第三处理数据末级内容相似度,将第三处理数据末级内容相似度标记为Lj,将第三处理数据、第三处理数据分级匹配度和第三处理数据末级内容相似度进行去除量纲取其数值计算;
步骤S44:根据公式Qj=λ*b1*Pj*(b2*Lj),获取得到去重值Qi,其中,b1、b2均为比例系数,取值范围为0≤b1≤1,0<b2≤1,λ为修正因子,取值范围为0<λ≤1,当匹配度是分级相同时,b1*Pj=1,当匹配度是分级不同时,b1*Pj=0;
步骤S45:设置去重值Qi警戒线,所述去重值Qi警戒线为预设数据;
步骤S46:将超过去重值Qi警戒线的去重值Qi进行标记,建立备份库,将标记后的第三处理数据复制到备份库中;
步骤S47:将标记后的第三处理数据进行删除。
进一步地,所述第二分类单元用于对第四处理数据进行分类,具体方法包括以下步骤:
步骤S51:设置数据用户分类;
步骤S52:实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据;
步骤S53:通过储存模块获取历史分类数据;历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,以及对应的第四处理数据在数据用户分类中的类别,并将第四处理数据在数据用户分类中的类别标记为最终分类;
步骤S54:构建人工智能模型;所述人工智能模型至少包括误差逆向传播神经网络、RBF神经网络和深度卷积神经网络中的一种,人工智能模型的输出结果是最终分类;
步骤S55:将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集;所述设定比例包括2:1:1、3:2:1和3:1:1;通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验;将训练完成的人工智能模型标记为预测模型;
步骤S56:将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别;
步骤S57:将第四处理数据对应输入到数据用户分类中。
一种基于工业大数据的多源异构数据融合方法,具体方法包括以下步骤:
步骤一:建立多源异构数据的关键词表,采集多源异构数据,设置预设标准格式,按照预设标准格式对获取到的多源异构数据进行清洗,将清洗后的多源异构数据标记为第一处理数据,对多源异构数据的关键词表进行分类;
步骤二:对数据采集到的多源异构数据进行分析,将第一处理数据按照属性和用途分为i级,将分级后的第一处理数据标记为第二处理数据,将第二处理数据与多源异构数据的关键词表分类进行逐级匹配,将匹配到的第二处理数据输入到对应的关键词表分类中,将输入到对应关键词表分类中的第二处理数据标记为第三处理数据,对第三处理数据进行去重化,将去重化后的第三处理数据标记为第四处理数据;
步骤三:对第四处理数据进行分类;
步骤A1:设置数据用户分类,实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据;
步骤A2:通过储存模块获取历史分类数据;历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,以及对应的第四处理数据在数据用户分类中的类别,并将第四处理数据在数据用户分类中的类别标记为最终分类;
步骤A3:构建人工智能模型,人工智能模型的输出结果是最终分类,将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集;所述设定比例包括2:1:1、3:2:1和3:1:1;通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验;将训练完成的人工智能模型标记为预测模型;
步骤A4:将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别,将第四处理数据对应输入到数据用户分类中。
本发明的有益效果:通过数据采集模块的设置,对采集到的多源异构数据进行清洗,由于获取到的数据是最基本的原始数据,不仅结构多样化而且还携带有很多冗余信息,因此需要对获取到的数据进行清洗,将结构多样、内容杂乱的数据清洗成统一标准格式的数据,并在清洗的过程中过滤掉冗余信息;通过第一分类单元的设置,对多源异构数据进行初步分类,再通过对分类后的数据进行去重,删除不需要的数据,提高储存空间使用率;通过第二分类单元的设置,采用神经网络模型的方式对数据进行再次分类,提高分类的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一种基于工业大数据的多源异构数据融合系统,包括数据采集模块、属性分析模块、服务器和储存模块;
所述数据采集模块用于从工业大数据中采集多源异构数据,具体采集方法包括以下步骤:
步骤S11:建立多源异构数据的关键词表,多源异构数据的关键词表是由数据源确定的,数据源的关键词包括数据源输出的数据关键词、数据源载体设备的关键词;
步骤S12:获取多源异构数据,设置预设标准格式,预设标准格式根据实际使用需求设定,包括结构化、非结构化以及半结构化的标准格式;
步骤S13:按照预设标准格式对获取到的多源异构数据进行清洗,过滤掉冗余信息,多源异构数据清洗包括缺失值清洗、格式内容清洗以及逻辑错误清洗,将清洗后的多源异构数据标记为第一处理数据,由于获取到的数据是最基本的原始数据,不仅结构多样化而且还携带有很多冗余信息,因此需要对获取到的数据进行清洗,将结构多样、内容杂乱的数据清洗成统一标准格式的数据,并在清洗的过程中过滤掉冗余信息;
步骤S14:对多源异构数据的关键词表进行分类,可以按照关键词属性、归属行业类别、词性进行分类,每类分为四级,包括第一级分类、第二级分类、第三级分类和第四级分类,第一级分类包含第二级分类,第二级分类包含第三级分类,第三级分类包含第四级分类,例如自行车可以分为运输工具、陆用车辆、自行车和自行车轮胎;当多源异构数据不够分到下一级的分裂时,就只分到上一级,例如不能分到第四级分类,就分到第三级分类,依次类推;
进一步地,缺失值清洗方法具体包括以下步骤:
步骤S21:确定的缺失值范围,计算每个字段的缺失值比例,根据缺失比例和字段重要性,分别制定策略;
步骤S22:删除不需要的字段,根据业务知识和经验推测填充缺失值;
步骤S23:当数据缺失量过多,错误率高时,重新获取数据;
所述属性分析模块用于对数据采集模块采集到的多源异构数据进行分析,包括第一分类单元和第二分类单元,所述第一分类单元的具体分类方法包括以下步骤:
步骤S31:获取第一处理数据,将第一处理数据按照属性和用途分为i级,其中i=1、2、……、n,n为正整数,例如自行车可以分为运输工具、无轨车辆、陆用车辆、自行车、双轮自行车、车架、单横梁型车架等,分级类别对照多源异构数据的关键词表分类;
步骤S32:将分级后的第一处理数据标记为第二处理数据,将第二处理数据与多源异构数据的关键词表分类进行逐级匹配,将匹配到的第二处理数据输入到对应的关键词表分类中;
步骤S33:将输入到对应关键词表分类中的第二处理数据标记为第三处理数据,对第三处理数据进行去重化,将去重化后的第三处理数据标记为第四处理数据;
进一步地,对于步骤S33中对第三处理数据进行去重化的具体方法包括以下步骤:
步骤S41:获取第三处理数据,将第三处理数据标记为j,其中j=1、2、……、m,m为正整数;
步骤S42:获取第三处理数据按照属性和用途的分级,将第三处理数据分级与所有的第三处理数据分级进行匹配,获得第三处理数据分级匹配度,分级匹配度包括分级相同和分级不同,并将第三处理数据分级匹配度标记为Pj;
步骤S43:获取第三处理数据分级中的最后一级内容,并将第三处理数据分级中的最后一级内容标记为第三处理数据末级内容,将第三处理数据末级内容与所有第三处理数据末级内容进行匹配,获得第三处理数据末级内容相似度,将第三处理数据末级内容相似度标记为Lj,将第三处理数据、第三处理数据分级匹配度和第三处理数据末级内容相似度进行去除量纲取其数值计算;
步骤S44:根据公式Qj=λ*b1*Pj*(b2*Lj),获取得到去重值Qi,其中,b1、b2均为比例系数,取值范围为0≤b1≤1,0<b2≤1,λ为修正因子,取值范围为0<λ≤1,当匹配度是分级相同时,b1*Pj=1,当匹配度是分级不同时,b1*Pj=0;
步骤S45:设置去重值Qi警戒线,所述去重值Qi警戒线为预设数据,预设数据根据实际操作由专家组进行设置,进一步地,去重值Qi警戒线为百分之七十,重值Qi超过百分之七十的均为超过去重值Qi警戒线;
步骤S46:将超过去重值Qi警戒线的去重值Qi进行标记,建立备份库,将标记后的第三处理数据复制到备份库中;
步骤S47:将标记后的第三处理数据进行删除;
所述第二分类单元用于对第四处理数据进行分类,具体方法包括以下步骤:
步骤S51:设置数据用户分类,数据客户分类用于用户根据实际生产需要和产品数据种类进行设置,贴合用户工厂数据使用,同时也可以根据系统推荐进行分类;
步骤S52:实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据;
步骤S53:通过储存模块获取历史分类数据;历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,以及对应的第四处理数据在数据用户分类中的类别,并将第四处理数据在数据用户分类中的类别标记为最终分类,第四处理数据在数据用户分类中的类别就是第四处理数据在数据用户分类中属于哪种分类;
步骤S54:构建人工智能模型;所述人工智能模型至少包括误差逆向传播神经网络、RBF神经网络和深度卷积神经网络中的一种,人工智能模型的输出结果是最终分类;
步骤S55:将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集;所述设定比例包括2:1:1、3:2:1和3:1:1;通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验;将训练完成的人工智能模型标记为预测模型;
步骤S56:将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别;
步骤S57:将第四处理数据对应输入到数据用户分类中。
如图1所示,一种基于工业大数据的多源异构数据融合方法,具体方法包括以下步骤:
步骤一:建立多源异构数据的关键词表,采集多源异构数据,设置预设标准格式,按照预设标准格式对获取到的多源异构数据进行清洗,将清洗后的多源异构数据标记为第一处理数据,对多源异构数据的关键词表进行分类;
步骤二:对数据采集到的多源异构数据进行分析,将第一处理数据按照属性和用途分为i级,将分级后的第一处理数据标记为第二处理数据,将第二处理数据与多源异构数据的关键词表分类进行逐级匹配,将匹配到的第二处理数据输入到对应的关键词表分类中,将输入到对应关键词表分类中的第二处理数据标记为第三处理数据,对第三处理数据进行去重化,将去重化后的第三处理数据标记为第四处理数据;
步骤三:对第四处理数据进行分类;
步骤A1:设置数据用户分类,实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据;
步骤A2:通过储存模块获取历史分类数据;历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,以及对应的第四处理数据在数据用户分类中的类别,并将第四处理数据在数据用户分类中的类别标记为最终分类;
步骤A3:构建人工智能模型,人工智能模型的输出结果是最终分类,将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集;所述设定比例包括2:1:1、3:2:1和3:1:1;通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验;将训练完成的人工智能模型标记为预测模型;
步骤A4:将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别,将第四处理数据对应输入到数据用户分类中。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况设定。
本发明在使用时,建立多源异构数据的关键词表,采集多源异构数据,设置预设标准格式,按照预设标准格式对获取到的多源异构数据进行清洗,将清洗后的多源异构数据标记为第一处理数据,对多源异构数据的关键词表进行分类,对数据采集到的多源异构数据进行分析,将第一处理数据按照属性和用途分为i级,将分级后的第一处理数据标记为第二处理数据,将第二处理数据与多源异构数据的关键词表分类进行逐级匹配,将匹配到的第二处理数据输入到对应的关键词表分类中,将输入到对应关键词表分类中的第二处理数据标记为第三处理数据,对第三处理数据进行去重化,将去重化后的第三处理数据标记为第四处理数据;
设置数据用户分类,实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据;通过储存模块获取历史分类数据;历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,以及对应的第四处理数据在数据用户分类中的类别,并将第四处理数据在数据用户分类中的类别标记为最终分类;构建人工智能模型,人工智能模型的输出结果是最终分类,将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集;所述设定比例包括2:1:1、3:2:1和3:1:1;通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验;将训练完成的人工智能模型标记为预测模型;将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别,将第四处理数据对应输入到数据用户分类中。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (6)
1.一种基于工业大数据的多源异构数据融合系统,其特征在于,包括数据采集模块、属性分析模块、服务器和储存模块;
所述数据采集模块用于从工业大数据中采集多源异构数据,具体采集方法包括以下步骤:
步骤S11:建立多源异构数据的关键词表,多源异构数据的关键词表是由数据源确定的,数据源的关键词包括数据源输出的数据关键词、数据源载体设备的关键词;
步骤S12:获取多源异构数据,设置预设标准格式,预设标准格式根据实际使用需求设定,包括结构化、非结构化以及半结构化的标准格式;
步骤S13:按照预设标准格式对获取到的多源异构数据进行清洗,过滤掉冗余信息,多源异构数据清洗包括缺失值清洗、格式内容清洗以及逻辑错误清洗,将清洗后的多源异构数据标记为第一处理数据;
步骤S14:对多源异构数据的关键词表进行分类,每类分为四级,包括第一级分类、第二级分类、第三级分类和第四级分类,第一级分类包含第二级分类,第二级分类包含第三级分类,第三级分类包含第四级分类;
所述属性分析模块用于对数据采集模块采集到的多源异构数据进行分析,包括第一分类单元和第二分类单元。
2.根据权利要求1所述的一种基于工业大数据的多源异构数据融合系统,其特征在于,缺失值清洗方法具体包括以下步骤:
步骤S21:确定的缺失值范围,计算每个字段的缺失值比例,根据缺失比例和字段重要性,分别制定策略;
步骤S22:删除不需要的字段,根据业务知识和经验推测填充缺失值;
步骤S23:当数据缺失量过多,错误率高时,重新获取数据。
3.根据权利要求1所述的一种基于工业大数据的多源异构数据融合系统,其特征在于,所述第一分类单元的具体分类方法包括以下步骤:
步骤S31:获取第一处理数据,将第一处理数据按照属性和用途分为i级,其中i=1、2、……、n,n为正整数,分级类别对照多源异构数据的关键词表分类;
步骤S32:将分级后的第一处理数据标记为第二处理数据,将第二处理数据与多源异构数据的关键词表分类进行逐级匹配,将匹配到的第二处理数据输入到对应的关键词表分类中;
步骤S33:将输入到对应关键词表分类中的第二处理数据标记为第三处理数据,对第三处理数据进行去重化,将去重化后的第三处理数据标记为第四处理数据。
4.根据权利要求3所述的一种基于工业大数据的多源异构数据融合系统,其特征在于,对于步骤S33中对第三处理数据进行去重化的具体方法包括以下步骤:
步骤S41:获取第三处理数据,将第三处理数据标记为j,其中j=1、2、……、m,m为正整数;
步骤S42:获取第三处理数据按照属性和用途的分级,将第三处理数据分级与所有的第三处理数据分级进行匹配,获得第三处理数据分级匹配度,分级匹配度包括分级相同和分级不同,并将第三处理数据分级匹配度标记为Pj;
步骤S43:获取第三处理数据分级中的最后一级内容,并将第三处理数据分级中的最后一级内容标记为第三处理数据末级内容,将第三处理数据末级内容与所有第三处理数据末级内容进行匹配,获得第三处理数据末级内容相似度,将第三处理数据末级内容相似度标记为Lj,将第三处理数据、第三处理数据分级匹配度和第三处理数据末级内容相似度进行去除量纲取其数值计算;
步骤S44:根据公式Qj=λ*b1*Pj*(b2*Lj),获取得到去重值Qi,其中,b1、b2均为比例系数,取值范围为0≤b1≤1,0<b2≤1,λ为修正因子,取值范围为0<λ≤1,当匹配度是分级相同时,b1*Pj=1,当匹配度是分级不同时,b1*Pj=0;
步骤S45:设置去重值Qi警戒线,所述去重值Qi警戒线为预设数据;
步骤S46:将超过去重值Qi警戒线的去重值Qi进行标记,建立备份库,将标记后的第三处理数据复制到备份库中;
步骤S47:将标记后的第三处理数据进行删除。
5.根据权利要求1所述的一种基于工业大数据的多源异构数据融合系统,其特征在于,所述第二分类单元用于对第四处理数据进行分类,具体方法包括以下步骤:
步骤S51:设置数据用户分类;
步骤S52:实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据;
步骤S53:通过储存模块获取历史分类数据;历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,以及对应的第四处理数据在数据用户分类中的类别,并将第四处理数据在数据用户分类中的类别标记为最终分类;
步骤S54:构建人工智能模型;所述人工智能模型至少包括误差逆向传播神经网络、RBF神经网络和深度卷积神经网络中的一种,人工智能模型的输出结果是最终分类;
步骤S55:将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集;所述设定比例包括2:1:1、3:2:1和3:1:1;通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验;将训练完成的人工智能模型标记为预测模型;
步骤S56:将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别;
步骤S57:将第四处理数据对应输入到数据用户分类中。
6.一种基于工业大数据的多源异构数据融合方法,其特征在于,具体方法包括以下步骤:
步骤一:建立多源异构数据的关键词表,采集多源异构数据,设置预设标准格式,按照预设标准格式对获取到的多源异构数据进行清洗,将清洗后的多源异构数据标记为第一处理数据,对多源异构数据的关键词表进行分类;
步骤二:对数据采集到的多源异构数据进行分析,将第一处理数据按照属性和用途分为i级,将分级后的第一处理数据标记为第二处理数据,将第二处理数据与多源异构数据的关键词表分类进行逐级匹配,将匹配到的第二处理数据输入到对应的关键词表分类中,将输入到对应关键词表分类中的第二处理数据标记为第三处理数据,对第三处理数据进行去重化,将去重化后的第三处理数据标记为第四处理数据;
步骤三:对第四处理数据进行分类;
步骤A1:设置数据用户分类,实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据;
步骤A2:通过储存模块获取历史分类数据;历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,以及对应的第四处理数据在数据用户分类中的类别,并将第四处理数据在数据用户分类中的类别标记为最终分类;
步骤A3:构建人工智能模型,人工智能模型的输出结果是最终分类,将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集;所述设定比例包括2:1:1、3:2:1和3:1:1;通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验;将训练完成的人工智能模型标记为预测模型;
步骤A4:将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别,将第四处理数据对应输入到数据用户分类中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110294350.3A CN112905580B (zh) | 2021-03-19 | 2021-03-19 | 一种基于工业大数据的多源异构数据融合系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110294350.3A CN112905580B (zh) | 2021-03-19 | 2021-03-19 | 一种基于工业大数据的多源异构数据融合系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905580A true CN112905580A (zh) | 2021-06-04 |
CN112905580B CN112905580B (zh) | 2022-03-18 |
Family
ID=76105538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110294350.3A Active CN112905580B (zh) | 2021-03-19 | 2021-03-19 | 一种基于工业大数据的多源异构数据融合系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905580B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129395A (zh) * | 2021-05-08 | 2021-07-16 | 深圳市数存科技有限公司 | 一种数据压缩加密系统 |
CN113246421A (zh) * | 2021-07-07 | 2021-08-13 | 广州中和互联网技术有限公司 | 一种基于大数据的注塑工业数据处理系统及方法 |
CN113449326A (zh) * | 2021-08-30 | 2021-09-28 | 北京博睿天扬科技有限公司 | 一种基于多源异构数据处理的工业大数据分析系统 |
CN113556318A (zh) * | 2021-06-07 | 2021-10-26 | 广州康辰科技有限公司 | 基于云安全的电子商务验证方法 |
CN115905324A (zh) * | 2023-02-21 | 2023-04-04 | 中科迅联智慧网络科技(北京)有限公司 | 一种应用于多种数据相互关联的智能匹配方法及其系统 |
CN117591025A (zh) * | 2023-11-27 | 2024-02-23 | 海南榕树家信息科技有限公司 | 多源异构数据处理系统 |
CN117675206A (zh) * | 2024-02-01 | 2024-03-08 | 长沙数智科技集团有限公司 | 基于智慧城市政务数据综合管理服务平台及数据治理方法 |
CN118467989A (zh) * | 2024-07-11 | 2024-08-09 | 贵州航天云网科技有限公司 | 基于业务分析的多源异构数据处理构建与验证方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2362729Y (zh) * | 1999-03-26 | 2000-02-09 | 张旭 | 自行车防滑网 |
CN2454245Y (zh) * | 2000-12-14 | 2001-10-17 | 邹月 | 多功能自行车 |
KR20160090970A (ko) * | 2015-01-22 | 2016-08-02 | 특허법인 리온 | 이종 기술 특허 검색 방법 및 이종 기술 특허 검색 시스템 |
CN108121508A (zh) * | 2017-12-15 | 2018-06-05 | 华中师范大学 | 基于教育大数据的多源异构数据采集系统及处理方法 |
-
2021
- 2021-03-19 CN CN202110294350.3A patent/CN112905580B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2362729Y (zh) * | 1999-03-26 | 2000-02-09 | 张旭 | 自行车防滑网 |
CN2454245Y (zh) * | 2000-12-14 | 2001-10-17 | 邹月 | 多功能自行车 |
KR20160090970A (ko) * | 2015-01-22 | 2016-08-02 | 특허법인 리온 | 이종 기술 특허 검색 방법 및 이종 기술 특허 검색 시스템 |
CN108121508A (zh) * | 2017-12-15 | 2018-06-05 | 华中师范大学 | 基于教育大数据的多源异构数据采集系统及处理方法 |
Non-Patent Citations (2)
Title |
---|
MINGLIU LIU ET AL.: ""Discovery of Multimodal Sensor Data Through Webpage Exploration"", 《IEEE INTERNET OF THINGS JOURNAL》 * |
姜建华 等: ""一种多源异构数据融合方法及其应用研究"", 《计算机技术与应用》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129395B (zh) * | 2021-05-08 | 2021-09-10 | 深圳市数存科技有限公司 | 一种数据压缩加密系统 |
CN113129395A (zh) * | 2021-05-08 | 2021-07-16 | 深圳市数存科技有限公司 | 一种数据压缩加密系统 |
CN113556318B (zh) * | 2021-06-07 | 2023-07-07 | 广西叫酒网络科技有限公司 | 基于云安全的电子商务验证方法 |
CN113556318A (zh) * | 2021-06-07 | 2021-10-26 | 广州康辰科技有限公司 | 基于云安全的电子商务验证方法 |
CN113246421A (zh) * | 2021-07-07 | 2021-08-13 | 广州中和互联网技术有限公司 | 一种基于大数据的注塑工业数据处理系统及方法 |
CN113246421B (zh) * | 2021-07-07 | 2021-10-08 | 广州中和互联网技术有限公司 | 一种基于大数据的注塑工业数据处理系统及方法 |
CN113449326A (zh) * | 2021-08-30 | 2021-09-28 | 北京博睿天扬科技有限公司 | 一种基于多源异构数据处理的工业大数据分析系统 |
CN115905324A (zh) * | 2023-02-21 | 2023-04-04 | 中科迅联智慧网络科技(北京)有限公司 | 一种应用于多种数据相互关联的智能匹配方法及其系统 |
CN117591025A (zh) * | 2023-11-27 | 2024-02-23 | 海南榕树家信息科技有限公司 | 多源异构数据处理系统 |
CN117591025B (zh) * | 2023-11-27 | 2024-05-10 | 海南榕树家信息科技有限公司 | 多源异构数据处理系统 |
CN117675206A (zh) * | 2024-02-01 | 2024-03-08 | 长沙数智科技集团有限公司 | 基于智慧城市政务数据综合管理服务平台及数据治理方法 |
CN117675206B (zh) * | 2024-02-01 | 2024-04-05 | 长沙数智科技集团有限公司 | 基于智慧城市政务数据综合管理服务平台及数据治理方法 |
CN118467989A (zh) * | 2024-07-11 | 2024-08-09 | 贵州航天云网科技有限公司 | 基于业务分析的多源异构数据处理构建与验证方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112905580B (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112905580B (zh) | 一种基于工业大数据的多源异构数据融合系统及方法 | |
CN113590698B (zh) | 基于人工智能技术的数据资产分类建模与分级保护方法 | |
Nandurge et al. | Analyzing road accident data using machine learning paradigms | |
CN109657947A (zh) | 一种面向企业行业分类的异常检测方法 | |
Halibas et al. | Determining the intervening effects of exploratory data analysis and feature engineering in telecoms customer churn modelling | |
CN111950585A (zh) | 一种基于XGBoost的地下综合管廊安全状况评估方法 | |
CN109284420B (zh) | 电子元器件替代选型系统及替代选型方法 | |
CN108170769A (zh) | 一种基于决策树算法的装配制造质量数据处理方法 | |
CN111552813A (zh) | 一种基于电网全业务数据的电力知识图谱构建方法 | |
CN114048870A (zh) | 一种基于日志特征智能挖掘的电力系统异常监测方法 | |
CN116662577B (zh) | 基于知识图谱的大型语言模型训练方法及装置 | |
CN108470022A (zh) | 一种基于运维管理的智能工单质检方法 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN107577724A (zh) | 一种大数据处理方法 | |
CN117473431B (zh) | 一种基于知识图谱的机场数据分类分级方法及系统 | |
CN113568928A (zh) | 一种应用于能源产业链预警系统的数据管理系统 | |
CN115809302A (zh) | 元数据处理方法、装置、设备及存储介质 | |
CN113836310A (zh) | 知识图谱驱动的工业品供应链管理方法和系统 | |
CN112416904A (zh) | 电力数据规范化处理方法及装置 | |
CN115409120A (zh) | 一种基于数据驱动的用户窃电行为检测辅助方法 | |
CN118132750A (zh) | 电力行业客户服务数据的处理方法及装置 | |
Imron et al. | Application of data mining classification method for student graduation prediction using K-nearest neighbor (K-NN) algorithm | |
CN116522912B (zh) | 一种包装设计语言模型的训练方法、装置、介质及设备 | |
CN113505167A (zh) | 一种链路预测关系推荐的用户数据预处理系统 | |
CN110826845B (zh) | 一种多维组合成本分摊装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |