CN118296326A - 一种工业互联网大数据分析方法 - Google Patents

一种工业互联网大数据分析方法 Download PDF

Info

Publication number
CN118296326A
CN118296326A CN202410524297.5A CN202410524297A CN118296326A CN 118296326 A CN118296326 A CN 118296326A CN 202410524297 A CN202410524297 A CN 202410524297A CN 118296326 A CN118296326 A CN 118296326A
Authority
CN
China
Prior art keywords
data
unit
industrial
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410524297.5A
Other languages
English (en)
Inventor
陈元凯
李大明
卢高洁
田欢
李家薪
蒋乐瑶
杨卓
马璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Software Engineering Vocational College Wuhan Open University
Original Assignee
Wuhan Software Engineering Vocational College Wuhan Open University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Software Engineering Vocational College Wuhan Open University filed Critical Wuhan Software Engineering Vocational College Wuhan Open University
Priority to CN202410524297.5A priority Critical patent/CN118296326A/zh
Publication of CN118296326A publication Critical patent/CN118296326A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种工业互联网大数据分析方法,涉及大数据分析技术领域,解决了大数据分析过程中对信息源的获取效率较低、对挖掘的信息识别度较低和对信息的保护力度不足的问题,工业互联网大数据分析方法包括设定预设周期、通过互联网舆情监控系统收集原始数据包、对原始数据包进行拆分和计算筛分,得到工业数据信息、对工业数据信息进行加密存储、对工业数据信息对应实体对象进行标记,得到预测模型、通过蓝牙传输输出预测模型至实体对象对应的控制计算机;本发明通过互联网舆情监控系统实现增加信息源的数量和提高信息收集的效率;通过预测模型和实体对象标记实现提高对挖掘信息的识别度;通过加密存储实现强化对信息的保护力度。

Description

一种工业互联网大数据分析方法
技术领域
本发明涉及工业互联网大数据分析技术领域,具体涉及一种工业互联网大数据分析方法
背景技术
大数据分析是指对规模巨大的数据进行分析;大数据可以概括为5个V,数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity);大数据分析可分为六个基本方面1.可视化分析,2.数据挖掘算法,3.预测性分析能力,4.语义引擎,5.数据质量和数据管理,6.数据存储,数据仓库;大数据分析多用于机会发掘和预测需求、缓冲风险和减少欺诈、趋势分析和预测、提供相关产品、个性化服务、优化和改善客户体验。
互联网时代,人们喜欢用自媒体、论坛、网络客服等若干互联网途径表达和反馈自己对各种事物的想法、看法及评价等;而服务单位也非常希望通过互联网数据来分析公众对自身各项服务的评价和意见反馈,从而找到真正贴合用户的管理服务改进措施;于是,依托于大数据分析的互联网舆情系统逐步完善并被广泛使用。
互联网舆情监控系统主要依托搜索引擎技术和数据挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现服务单位对自己相关网络舆情监督管理的需要,最终形成各种舆情报告,为服务单位决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。
现存的大数据分析和互联网舆情监控系统存在以下问题:首先,对信息源的获取存在低效和冗杂的问题;其次,现存技术中对挖掘的信息存在识别度较低的问题;最后,传统数据挖掘方法存在对信息的保护力度不足,容易导致数据泄露和安全性较差的问题。
发明内容
针对现有技术中存在的上述不足之处,本发明公开了一种信息源获取高效,便捷、对信息进行标记,提高识别度和安全稳定的大数据分析方法。
为实现上述技术效果,本发明采用以下技术方案:
一种工业互联网大数据分析方法,包括
S1、设定工业互联网交互的数据节点,安装大数据分析系统在工业装置的控制计算机内部,通过控制计算机启动大数据分析系统;
S2、通过互联网舆情监控系统对工业装置在预设周期内产生的原始数据包进行收集,并输出原始数据包至计算筛分模块;
S3、利用深度学习模型和数据分类算法对原始数据包进行拆分和计算筛分,得到冗杂信息、工业数据信息和中间数据信息,对中间数据信息进行二次拆分和计算筛分,得到误差信息和工业数据信息,输出工业数据信息至标记处理模块和加密存储模块;
S4、设置加密存储模块的识别密码,保存工业数据信息在所述加密存储模块中;对冗杂信息和误差信息进行删除清理,并生成清理日志;
S5、标记处理模块根据工业数据信息对工业装置中的对应实体对象进行识别标注和分类,并构成对应的计算机可读的结构化数据;
S6、按照正则表达式和关键词匹配方法,提取结构化数据中的标识信息并按照配置数据字典方法解析标识信息以形成数据集,基于数据集生成发展趋势的预测模型;
S7、输出预测模型至所述加密存储模块,输出结构化数据、数据集和预测模型至反馈输出模块,反馈输出模块通过蓝牙传输输出结构化数据、数据集和预测模型至工业装置的控制计算机。
作为上述方案的进一步描述,
通过互联网舆情监控系统收集原始数据包,包括:
S101、获取多个互联网舆情数据源,对所述互联网舆情数据源进行预处理;
S102、采用纵向比较法对预处理后的每个数据源分别进行去重选负处理,得到每个数据源去重选负后的数据;
S103、采用横向比较法对各个数据源去重选负后的数据进行进一步分析处理,得到相似情感分析的原始数据包;
S104、根据数据包得到被选定的数据源位置及推送的时间,并将最初的时间节点赋予被选定的数据。
作为上述方案的进一步描述,
S201、采用近邻融合填充算法对获取的原始数据包进行填充处理;
S202、基于深度学习方法和需求数据进行模型训练,得到与需求数据匹配的深度学习模型;
S203、通过深度学习模型对填充处理后的数据进行分类处理,得到冗杂信息、工业数据信息和中间数据信息;
S204、通过数据分类算法对中间数据信息进行二次分类处理,得到误差信息和工业数据信息。
作为上述方案的进一步描述,
所述深度学习算法是基于神经网络实现用于制定决策的模式而诞生的一系列算法,所述深度学习模型和所述预测模型采用基于循环神经网络实现的RTRL深度学习算法进行训练建模和分类,所述RTRL深度学习算法分为三个步骤,首先,基于前向传播公式进行前向传播,然后,基于误差函数进行误差计算,最后,基于递归公式进行逆向传播;所述前向传播公式为:
在公式(1)中,Z(t)表示训练的输入值,用于计算在不同情况下,传播数据的变化;I表示输入数据集、U表示输出数据集、l表示传播的距离,I、U用于计算数据集的变换情况;W表示神经网络维度向量变换矩阵的参数,用于计算数据集在神经网络中的变换情况;t表示输入的预计周期,用于计算向前传播的时间波动;所述误差函数的表达式为:
e(t)=d(t)-z(t) (2)
在公式(2)中,e(t)表示误差值,用于计算在传播过程中误差发生的数量;d(t)表示期望值;y(t)表示神经网络的输出值,在公式(2)中,
所述递归公式为:
在公式(4)中,t0表示逆向传播的初动时间点,ΔW表示参数W在逆向传播过程中出现的变换矩阵变换后的参数变换值,用于计算逆向传播的效率;在公式(4)中,
在公式(5)中,α表示递归参数,用于计算逆向传播中的效率。
作为上述方案的进一步描述,
根据工业数据信息对工业装置中的对应实体对象进行识别标注和分类,包括:
S301、根据工业数据信息,对工业装置中的对应实体对象进行识别标注和分类;
S302、根据识别标注分类的结果,提取对应实体对象的关键词;
S303、根据自然语言处理技术,对关键词进行分词、词性标注、命名实体的识别处理标注并构成对应的计算机可读的结构化数据。
作为上述方案的进一步描述,
按照数据拼接和数据聚合方法整合解析结果以获得数据集,包括:
S601、通过正则表达式和关键词匹配方法,提取结构化数据中的标识信息并进行解析;
S602、将来自于不同工业装置的解析结果进行拼接,以形成多工业装置的拼接数据集;
S603、将相同工业装置不同时间的解析结果聚合,以形成相同工业装置的汇总数据集;
S604、将汇总数据集和拼接数据集进行匹配拼接,以形成内部区分明显的总体数据集。
作为上述方案的进一步描述,
一种大数据分析系统,包括:
数据采集模块;用于根据互联网舆情监控系统对预设周期内的原始数据包进行对信息源收集;
计算筛分模块;用于通过深度学习模型和数据分类算法对数据信息进行拆分和计算筛分,得到冗杂信息和工业数据信息;
标记处理模块;用于对工业数据信息进行标记,并根据标记内容并生成对应的结构化数据、数据集和预测模型;
反馈输出模块;用于通过蓝牙传输输出结构化数据、数据集和预测模型至标记对象的控制计算机;
加密存储模块;用于通过存储芯片和权限加密单元实现对工业数据信息的隔离封存;
读取查询模块;用于通过权限识别单元对所述加密存储模块进行临时加密破解,通过需求输入单元提取所述加密存储模块中的内容;
其中,所述数据收集模块的输入端通过数据端口接入互联网舆情监控系统,所述数据收集模块的输出端通过导线连接所述计算筛分模块的输入端,所述计算筛分模块的输出端通过导线连接所述标记处理模块的输入端,所述标记处理模块的输出端通过导线连接所述加密存储模块和反馈输出模块的输入端,所述反馈输出模块的输出端连接工业装置的控制计算机,所述加密存储模块的输入端通过导线连接所述加密存储模块。
作为上述方案的进一步描述,
所述数据采集模块包括系统安装单元、参数配置单元和数据整合单元;所述计算筛分模块包括数据拆分单元和计算筛分单元;所述标记处理单元包括实体标记单元、分类提取单元和识别重构单元;所述反馈输出模块包括蓝牙交互组件和临时存储单元;所述加密存储模块包括存储芯片、权限加密单元和结果反馈单元;所述读取查询模块包括权限识别单元和需求输入单元。
作为上述方案的进一步描述,
所述参数配置单元的输出端通过导线连接所述系统安装单元的输入端,所述参数配置单元的输入端通过导线连接控制计算机,所述系统安装单元的输出端通过导线连接所述数据整合单元的输入端,所述数据整合单元的输出端通过导线连接所述数据拆分单元的输入端,所述数据拆分单元的输出端通过导线连接所述计算筛分单元的输入端,所述计算筛分单元的输出端通过导线连接所述实体标记单元和存储芯片的输入端,所述实体标记单元的输出端通过导线连接工业装置的控制计算机和所述分类提取单元的输入端,所述分类提取单元的输出端通过导线连接所述识别重构单元的输入端,所述识别重构单元的输出端通过导线连接所述临时存储单元的输入端,所述临时存储单元的输出端通过导线连接所述蓝牙交互组件的输入端,所述权限加密单元的输出端通过导线连接所述权限识别单元和存储芯片的输入端,所述结果反馈单元的输出端通过导线连接所述需求输入单元的输入端,所述存储芯片的输出端通过导线连接所述结果反馈单元和权限识别单元的输入端。
综上所述,本发明的积极有益效果:
1.本发明中,通过利用互联网舆情监控系统实现增加工业数据的收集渠道和信息源,以实现整合各渠道的技术及资源优势,规避短板,达到一个相对更完善的舆情数据渠道覆盖;通过舆情监控系统中的预处理阶段实现减少原始数据包中出现的冗杂信息;
2.本发明中,通过设置标记处理模块,实现对筛分计算后的数据进行标记处理,以实现提高对挖掘信息的识别度,通过提高挖掘信息的识别度实现加强后续相关性的计算和调取能力,以实现降低数据调取时的匹配时长,提高分析效率;
3.本发明中,通过设置加密存储模块,实现对经过系统分析处理后的数据进行加密存储,以实现在无密码情况下禁止读取数据,通过加密存储实现提高对数据的保护力度和安全性能;
4.本发明中,通过设置读取查询模块,实现对经过系统分析处理后的数据的快速识别查询,以实现提高工业生产中对数据信息的使用效率,提高技术工人对生产状态的掌控力度;
5.本发明中,通过利用互联网舆情监控系统实现对工艺生产需要信息的收集,以实现减少在数据分析过程中出现的片面性问题和情感分析偏差,通过对数据的全面化和精细化分析实现提高数据分析的准确性和精度;
6.本发明中,通过设置异步处理的大数据分析方法,实现提高数据分析系统的设备使用率,以实现宏观上提升程序运行的效率;通过提升程序运行的效率实现提高对工业数据进行分析的效率。
附图说明
图1为一种工业互联网大数据分析方法的方法流程图;
图2为一种工业互联网大数据分析系统的结构框图;
图3为一种工业互联网大数据分析方法的步骤S1的流程图;
图4为一种工业互联网大数据分析方法的步骤S2的流程图;
图5为一种工业互联网大数据分析方法的步骤S3的流程图;
图6为一种工业互联网大数据分析方法的步骤S6的流程图;
具体实施方案
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-图5所示,一种工业互联网大数据分析方法,包括
S1、设定工业互联网交互的数据节点,安装大数据分析系统在工业装置的控制计算机内部,通过控制计算机启动大数据分析系统;
S2、通过互联网舆情监控系统对工业装置在预设周期内产生的原始数据包进行收集,并输出原始数据包至计算筛分模块;
S3、利用深度学习模型和数据分类算法对原始数据包进行拆分和计算筛分,得到冗杂信息、工业数据信息和中间数据信息,对中间数据信息进行二次拆分和计算筛分,得到误差信息和工业数据信息,输出工业数据信息至标记处理模块和加密存储模块;
S4、设置加密存储模块的识别密码,保存工业数据信息在所述加密存储模块中;对冗杂信息和误差信息进行删除清理,并生成清理日志;
S5、标记处理模块根据工业数据信息对工业装置中的对应实体对象进行识别标注和分类,并构成对应的计算机可读的结构化数据;
S6、按照正则表达式和关键词匹配方法,提取结构化数据中的标识信息并按照配置数据字典方法解析标识信息以形成数据集,基于数据集生成发展趋势的预测模型;
S7、输出预测模型至所述加密存储模块,输出结构化数据、数据集和预测模型至反馈输出模块,反馈输出模块通过蓝牙传输输出结构化数据、数据集和预测模型至工业装置的控制计算机。
一种工业互联网大数据分析方法的具体实施方案为:
S1、在工业装置的控制计算机上输入预定的时间参数,插入预置有互联网舆情监控系统的移动组件,向控制计算机内导入互联网舆情监控系统并通过控制计算机控制互联网舆情监控系统进行工作;
S2、互联网舆情监控系统获取多个互联网舆情数据源,对所述互联网舆情数据源进行预处理;从预设时间点起,采用纵向比较法和横向对比法对预处理后的数据源进行去重选负处理,采用TF-IDF方法对数据源进行情感分析,得到情感相近的原始数据包;
S3、从数据包中读取采集到的数据;对读取的数据采用MR程序进行预处理,得到能进行对应关系读取的装置部件信息;对读取的数据采用多个并行线路对装置部件信息进行抓取,并将解析出的数据存储到存储芯片中;
S4、在工业装置的控制计算机上打开密码设置程序,导入加密程序至权限加密单元,权限加密单元覆盖至所述加密存储模块的输出端,实现限制所述加密存储模块的信息输出;
S5、识别并标注初始工业数据的实体对象;例如识别并标注的实体对象为工业装置名称、工业装置的品牌等;基于实体对象对初始工业数据进行分类;提取并标注分类后的初始工业数据的关键词;例如提取并标注的关键词为功能特点、产品名称等;基于自然语言处理技术对分类后的初始工业数据进行分词、词性标注、命名实体识别处理以形成计算机可处理的结构化数据;传输结构化数据至目标存储介质按数据结构方式存储,例如采用关系数据库存储结构化数据;为保障数据传输的安全性和效率,可选的,在结构化数据传输前对数据进行加密压缩处理,并实时获取传输状态和日志记录,若出现传输错误或丢包现象则采取相应的错误处理和重传机制;
S6、按照正则表达式和关键词匹配方法提取结构化数据的标识信息并按照配置文件和数据字典方法解析标识信息以形成数据流或数据表形式的解析结果,基于数据集所反映的数据特征按照时间序列分析方法拟合生成预测数据集发展趋势的预测模型;
S7、根据数据传输协议输出结构化数据、数据集和预测模型,以实现总控制计算机下行的部件控制计算机的数据分析和工作状态预测,通过蓝牙组件实现无线传输和远距离传输。
上述实施例中:通过互联网舆情监控系统收集原始数据包,包括:
S101、获取多个互联网舆情数据源,对所述互联网舆情数据源进行预处理;
S102、采用纵向比较法对预处理后的每个数据源分别进行去重选负处理,得到每个数据源去重选负后的数据;
S103、采用横向比较法对各个数据源去重选负后的数据进行进一步分析处理,得到相似情感分析的原始数据包;
S104、根据数据包得到被选定的数据源位置及推送的时间,并将最初的时间节点赋予被选定的数据。
具体实施例中:通过互联网舆情监控系统收集原始数据包,包括:
获取多个互联网舆情数据源,对所述互联网舆情数据源进行预处理;
从预设时间点起,采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理,得到每个互联网舆情数据源去重选负后的数据;
在预设周期内,采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理,得到相似情感分析结果,同时得到被选定的互联网舆情数据源及互联网舆情推送时间,并将最早的时间赋予被选定的舆情数据;
判断舆情数据的相似度的方法为,以某个时间为起点按顺序排队原则,假设一家舆情数据源最先时间点T1向系统推送了舆情源数据DaT1,后续的舆情数据可能有DaT2,DaT3;以DaT1为参照物与DaT2,DaT3数据的标题采用相似度函数对所述舆情数据进行舆情相似度计算,得到第一舆情相似度;根据所述第一舆情相似度,判断各个舆情数据是否为相似或者相同舆情数据;若所述第一舆情相似度大于等于第一预设值M,则各个舆情数据为相似舆情数据,进行各个舆情数据的情感对比分析,剔除重复舆情数据并选取负向舆情数据;其中M取值区间为70%~80%。
上述实施例中:利用深度学习模型和数据分类算法对原始数据包进行拆分和计算筛分,包括:
S201、采用近邻融合填充算法对获取的原始数据包进行填充处理;
S202、基于深度学习方法和需求数据进行模型训练,得到与需求数据匹配的深度学习模型;
S203、通过深度学习模型对填充处理后的数据进行分类处理,得到冗杂信息、工业数据信息和中间数据信息;
S204、通过数据分类算法对中间数据信息进行二次分类处理,得到误差信息和工业数据信息。
具体实施例中:基于深度神经网络的深度学习方法,采用RTRL深度学习算法来实现。BPTT(Back-Propagation Through Time)深度学习算法,是美国NortheasternUniversity大学的Williams RJ教授提出的能够训练无限深度神经网络的反向传递算法。RTRL(Real-Time Recurrent Learning)深度学习算法,是Robinson&Fallsid等人提出的一种前向传播“活动性”信息的算法;RTRL深度学习算法是基于循环深度神经网络的深度学习方法进行建模和分类,是指根据训练集采用基于无限深度神经网络的深度学习方法进行训练和测试,得到正确的分类识别模型及其参数。
上述实施例中:所述深度学习算法是基于神经网络实现用于制定决策的模式而诞生的一系列算法,所述深度学习模型和所述预测模型采用基于循环神经网络实现的RTRL深度学习算法进行训练建模和分类,所述RTRL深度学习算法分为三个步骤,首先,基于前向传播公式进行前向传播,然后,基于误差函数进行误差计算,最后,基于递归公式进行逆向传播;所述前向传播公式为:
在公式(1)中,Z(t)表示训练的输入值,用于计算在不同情况下,传播数据的变化;I表示输入数据集、U表示输出数据集、l表示传播的距离,I、U用于计算数据集的变换情况;W表示神经网络维度向量变换矩阵的参数,用于计算数据集在神经网络中的变换情况;t表示输入的预计周期,用于计算向前传播的时间波动;所述误差函数的表达式为:
e(t)=d(t)-z(t) (2)
在公式(2)中,e(t)表示误差值,用于计算在传播过程中误差发生的数量;d(t)表示期望值;y(t)表示神经网络的输出值,在公式(2)中,
所述递归公式为:
在公式(4)中,t0表示逆向传播的初动时间点,ΔW表示参数W在逆向传播过程中出现的变换矩阵变换后的参数变换值,用于计算逆向传播的效率;在公式(4)中,
在公式(5)中,α表示递归参数,用于计算逆向传播中的效率。
具体实施例中:神经网络是通过神经元相互堆积在一起,并按照层进行组织,来实现接收输入的信号,然后乘以对应的权重,并求和然后输入到一个非线性函数;循环神经网络是神经网络的一种,循环神经网络非常适合时间相关的数据,并且应用于时间序列的预测。该网络模型会采用反馈的形式,也就是将输出返回到输入中。你可以把它看成一个循环,从输出回到输入,将信息传递回网络,因此,网络模型具有记住历史数据并应用到预测中的能力,在具体实施例中,针对深度学习进行的距离l进一步计算,设l=Mt,初始化并读取t时段内的当前值,其中,t=1,2,3,…,T,T为当前时间节点当前时间所处的时段;
计算t时段内Xt的一次移动平均值Mt (1),所述Mt (1)的计算公式为:
计算t时段内Xt的二次移动平均值Mt (2),所述Mt (2)的计算公式为:
计算当前时间节点段的下一节点的同一时段内Xt的预测值XT+1,XT+1的计算公式如下:
根据预测的下一时间节点的同一时段内的总用户数T、平均访问次数F和平均每次访问带来的流量Q计算下一日同一时段内的最大访问流量wmax,所述ΔW计算的公式为:
ΔW=T*Q*Wmax (9)
在具体实施例中,所述深度学习算法与传统算法的数据对比表,如表所示:
表1深度学习算法与传统算法的数据对比表
上述实施例中:根据工业数据信息对工业装置中的对应实体对象进行识别标注和分类,包括:
S301、根据工业数据信息,对工业装置中的对应实体对象进行识别标注和分类;
S302、根据识别标注分类的结果,提取对应实体对象的关键词;
S303、根据自然语言处理技术,对关键词进行分词、词性标注、命名实体的识别处理标注并构成对应的计算机可读的结构化数据。
具体实施例中:提取并标注分类后的初始工业数据的关键词;例如提取并标注的关键词为功能特点、产品名称等;基于自然语言处理技术对分类后的初始工业数据进行分词、词性标注、命名实体识别处理以形成计算机可处理的结构化数据;传输结构化数据至目标存储介质按数据结构方式存储,例如采用关系数据库存储结构化数据;为保障数据传输的安全性和效率,可选的,在结构化数据传输前对数据进行ZIP压缩和RSA加密处理,并实时获取传输状态和日志记录,若出现传输错误或丢包现象则采取相应的错误处理和重传机制。
上述实施例中:按照数据拼接和数据聚合方法整合解析结果以获得数据集,包括:
S601、通过正则表达式和关键词匹配方法,提取结构化数据中的标识信息并进行解析;
S602、将来自于不同工业装置的解析结果进行拼接,以形成多工业装置的拼接数据集;
S603、将相同工业装置不同时间的解析结果聚合,以形成相同工业装置的汇总数据集;
S604、将汇总数据集和拼接数据集进行匹配拼接,以形成内部区分明显的总体数据集。
具体实施例中:来自不同工业装置的解析结果拼接以形成多工业装置数据集,例如将来自温度传感器和湿度传感器的数据拼接在一起,形成一个包含温度和湿度的数据集。数据聚合:将来自相同工业装置的数据进行聚合以生成汇总数据;例如将一天内来自某个工业装置的数据聚合,计算平均值、最大值、最小值。数据拼接和数据聚合可结合使用形成时间序列数据集,例如将聚合的来自一天内的A工业装置的温度数据集和B工业装置的温度数据集拼接在一起形成温度时间序列数据集;数据集所反映的数据特征采用数据挖掘技术获取,可选的,数据挖掘技术采用聚类分析算法,聚类分析算法的具体内容如图所示;聚类分析算法的目标是最小化聚类中心与其所代表的点之间的距离的平方和;通过聚类分析算法可识别出工业装置之间的相互依赖关系,工业装置故障的引发因素,通过将工业装置按使用寿命、功率、生产能力等特征分类以达到制定有效维护计划和生产计划的目的;通过识别的工业装置故障引发因素提前制定故障应急措施避免生产中断。
上述实施例中:一种大数据分析系统,包括:
数据采集模块;用于根据互联网舆情监控系统对预设周期内的原始数据包进行对信息源收集;
计算筛分模块;用于通过深度学习模型和数据分类算法对数据信息进行拆分和计算筛分,得到冗杂信息和工业数据信息;
标记处理模块;用于对工业数据信息进行标记,并根据标记内容并生成对应的结构化数据、数据集和预测模型;
反馈输出模块;用于通过蓝牙传输输出结构化数据、数据集和预测模型至标记对象的控制计算机;
加密存储模块;用于通过存储芯片和权限加密单元实现对工业数据信息的隔离封存;
读取查询模块;用于通过权限识别单元对所述加密存储模块进行临时加密破解,通过需求输入单元提取所述加密存储模块中的内容;
其中,所述数据收集模块的输入端通过数据端口接入互联网舆情监控系统,所述数据收集模块的输出端通过导线连接所述计算筛分模块的输入端,所述计算筛分模块的输出端通过导线连接所述标记处理模块的输入端,所述标记处理模块的输出端通过导线连接所述加密存储模块和反馈输出模块的输入端,所述反馈输出模块的输出端连接工业装置的控制计算机,所述加密存储模块的输入端通过导线连接所述加密存储模块。
具体实施例中:在工业装置的控制计算机上输入预定的时间参数,插入预置有互联网舆情监控系统的移动组件,向控制计算机内导入互联网舆情监控系统并通过控制计算机控制互联网舆情监控系统进行工作;互联网舆情监控系统获取多个互联网舆情数据源,对所述互联网舆情数据源进行预处理;从预设时间点起,采用纵向比较法和横向对比法对预处理后的数据源进行去重选负处理,采用TF-IDF方法对数据源进行情感分析,得到情感相近的原始数据包;从数据包中读取采集到的数据;对读取的数据采用MR程序进行预处理,得到能进行对应关系读取的装置部件信息;对读取的数据采用多个并行线路对装置部件信息进行抓取,并将解析出的数据存储到存储芯片中;在工业装置的控制计算机上打开密码设置程序,导入加密程序至权限加密单元;识别并标注初始工业数据的实体对象;并实时获取传输状态和日志记录,若出现传输错误或丢包现象则采取相应的错误处理和重传机制;按照正则表达式和关键词匹配方法提取结构化数据的标识信息并按照配置文件和数据字典方法解析标识信息以形成数据流或数据表形式的解析结果;按照时间序列分析方法拟合生成预测数据集发展趋势的预测模型;根据数据传输协议输出结构化数据、数据集和预测模型,实现对收集到的信息进行分析处理。
上述实施例中:所述数据采集模块包括系统安装单元、参数配置单元和数据整合单元;所述计算筛分模块包括数据拆分单元和计算筛分单元;所述标记处理单元包括实体标记单元、分类提取单元和识别重构单元;所述反馈输出模块包括蓝牙交互组件和临时存储单元;所述加密存储模块包括存储芯片、权限加密单元和结果反馈单元;所述读取查询模块包括权限识别单元和需求输入单元。
具体实施例中:所述系统安装单元通过外接数据接口结构实现连接所述大数据分析系统和互联网舆情监控系统;所述参数配置单元通过传输参数至控制计算机实现为所述计算筛分模块和标记处理单元提供运行的初始参数;所述数据整合单元通过数据处理方法实现对经过所述互联网舆情控制系统预处理后的数据文件进行整合处理并生成数据包;所述数据拆分单元通过数据分割方法实现对数据包的内容进行分割处理,以实现获得与模型兼容的数据信息;所述计算筛分单元通过深度学习模型实现对数据信息进行识别筛分,以实现剔除无用的冗杂信息;所述实体标记单元通过深度学习模型实现标记与工业数据信息对应的实体装置;所述分类提取单元通过数据集生成方案实现对工业数据信息进行整合拼接处理,以实现生成类型和参数互相对应的数据集;所述识别重构单元通过时间序列分析方法实现引导数据集进行模型训练,以实现生成预测模型;所述蓝牙交互组件通过蓝牙传输协议实现进行结构化数据、数据集和预测模型的数据信息的无线传递;所述临时存储单元通过存储协议实现对结构化数据、数据集和预测模型的临时存储,以实现增加蓝牙传输的稳定性;所述权限加密单元通过加密程序实现限制所述存储芯片的数据输出,所述权限加密单元与所述权限识别单元通过加密程序实现配合锁定或解锁所述存储芯片的数据输出权限;所述结果反馈单元通过数据传输协议实现输出经过数据分析后的结构化数据、数据集、预测模型和工业数据信息;所述需求输入单元通过与控制计算机上的搜索框进行配合实现输入需求的类型信息至所述结果反馈单元,以实现输出需求的信息。
上述实施例中:所述参数配置单元的输出端通过导线连接所述系统安装单元的输入端,所述参数配置单元的输入端通过导线连接控制计算机,所述系统安装单元的输出端通过导线连接所述数据整合单元的输入端,所述数据整合单元的输出端通过导线连接所述数据拆分单元的输入端,所述数据拆分单元的输出端通过导线连接所述计算筛分单元的输入端,所述计算筛分单元的输出端通过导线连接所述实体标记单元和存储芯片的输入端,所述实体标记单元的输出端通过导线连接工业装置的控制计算机和所述分类提取单元的输入端,所述分类提取单元的输出端通过导线连接所述识别重构单元的输入端,所述识别重构单元的输出端通过导线连接所述临时存储单元的输入端,所述临时存储单元的输出端通过导线连接所述蓝牙交互组件的输入端,所述权限加密单元的输出端通过导线连接所述权限识别单元和存储芯片的输入端,所述结果反馈单元的输出端通过导线连接所述需求输入单元的输入端,所述存储芯片的输出端通过导线连接所述结果反馈单元和权限识别单元的输入端。
具体实施例中:所述参数配置单元通过控制计算机输出预设参数至互联网舆情控制系统,所述系统安装单元输出所述互联网舆情监控系统至大数据分析系统内,所述数据整合单元对所述互联网舆情监控系统输出的数据进行整合处理,并输出原始数据包,所述数据拆分单元对所述原始数据包进行拆分以实现获取所述计算筛分单元能够读取的信息数据,所述计算筛分单元对信息数据进行计算筛分,以实现剔除冗余数据和获取工业数据信息,所述实体标记单元对工业数据信息进行读取识别以获取工业数据信息对应的工业装置实体的位置,所述分类提取单元对工业数据信息进行数据拼接和整合以获取结构化信息和数据集,所述识别重构单元对数据集进行拟合重构,以实现获取预测模型;所述权限加密单元通过参数配置单元实现生成加密程序,所述结果反馈单元通过数据输出协议实现输出需求的数据。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一,第二以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (9)

1.一种工业互联网大数据分析方法,其特征在于,包括以下步骤:
S1、设定工业互联网交互的数据节点,安装大数据分析系统在工业装置的控制计算机内部,通过控制计算机启动大数据分析系统;
S2、通过互联网舆情监控系统对工业装置在预设周期内产生的原始数据包进行收集,并输出原始数据包至计算筛分模块;
S3、利用深度学习模型和数据分类算法对原始数据包进行拆分和计算筛分,得到冗杂信息、工业数据信息和中间数据信息,对中间数据信息进行二次拆分和计算筛分,得到误差信息和工业数据信息,输出工业数据信息至标记处理模块和加密存储模块;所述深度学习模型和所述数据分类算法采用基于循环神经网络实现的RTRL深度学习算法进行训练建模和分类;
S4、设置加密存储模块的识别密码,保存工业数据信息在所述加密存储模块中;对冗杂信息和误差信息进行删除清理,并生成清理日志;
S5、标记处理模块根据工业数据信息对工业装置中的对应实体对象进行识别标注和分类,并构成对应的计算机可读的结构化数据;
S6、按照正则表达式和关键词匹配方法,提取结构化数据中的标识信息并按照配置数据字典方法解析标识信息以形成数据集,基于数据集生成发展趋势的预测模型;
S7、输出预测模型至所述加密存储模块,输出结构化数据、数据集和预测模型至反馈输出模块,反馈输出模块通过蓝牙传输输出结构化数据、数据集和预测模型至工业装置的控制计算机。
2.根据权利要求1所述的一种工业互联网大数据分析方法,其特征在于,所述互联网舆情监控系统用于收集原始数据包,工作方法包括:
S101、获取多个互联网舆情数据源,对所述互联网舆情数据源进行预处理;
S102、采用纵向比较法对预处理后的每个数据源分别进行去重选负处理,得到每个数据源去重选负后的数据;
S103、采用横向比较法对各个数据源去重选负后的数据进行进一步分析处理,得到相似情感分析的原始数据包;
S104、根据数据包得到被选定的数据源位置及推送的时间,并将最初的时间节点赋予被选定的数据。
3.根据权利要求1所述的一种工业互联网大数据分析方法,其特征在于,所述深度学习模型和数据分类算法对原始数据包进行拆分和计算筛分的工作方法包括:
S201、采用近邻融合填充算法对获取的原始数据包进行填充处理;
S202、基于深度学习方法和需求数据进行模型训练,得到与需求数据匹配的深度学习模型;
S203、通过深度学习模型对填充处理后的数据进行分类处理,得到冗杂信息、工业数据信息和中间数据信息;
S204、通过数据分类算法对中间数据信息进行二次分类处理,得到误差信息和工业数据信息。
4.根据权利要求3所述的一种工业互联网大数据分析方法,其特征在于,所述RTRL深度学习算法分为三个步骤,首先,基于前向传播公式进行前向传播,然后,基于误差函数进行误差计算,最后,基于递归公式进行逆向传播;所述前向传播公式为:
在公式(1)中,Z(t)表示训练的输入值,用于计算在不同情况下,传播数据的变化;I表示输入数据集、U表示输出数据集、l表示传播的距离,I、U用于计算数据集的变换情况;W表示神经网络维度向量变换矩阵的参数,用于计算数据集在神经网络中的变换情况;t表示输入的预计周期,用于计算向前传播的时间波动;所述误差函数的表达式为:
e(t)=d(t)-z(t) (2)在公式(2)中,e(t)表示误差值,用于计算在传播过程中误差发生的数量;d(t)表示期望值;y(t)表示神经网络的输出值,在公式(2)中,
所述递归公式为:
在公式(4)中,t0表示逆向传播的初动时间点,ΔW表示参数W在逆向传播过程中出现的变换矩阵变换后的参数变换值,用于计算逆向传播的效率;在公式(4)中,
在公式(5)中,α表示递归参数,用于计算逆向传播中的效率。
5.根据权利要求1所述的一种工业互联网大数据分析方法,其特征在于,根据工业数据信息对工业装置中的对应实体对象进行识别标注和分类的方法包括:
S301、根据工业数据信息,对工业装置中的对应实体对象进行识别标注和分类;
S302、根据识别标注分类的结果,提取对应实体对象的关键词;
S303、根据自然语言处理技术,对关键词进行分词、词性标注、命名实体的识别处理标注并构成对应的计算机可读的结构化数据。
6.根据权利要求1所述的一种工业互联网大数据分析方法,其特征在于,按照数据拼接和数据聚合方法整合解析结果以获得数据集的工作方法包括:
S601、通过正则表达式和关键词匹配方法,提取结构化数据中的标识信息并进行解析;
S602、将来自于不同工业装置的解析结果进行拼接,以形成多工业装置的拼接数据集;
S603、将相同工业装置不同时间的解析结果聚合,以形成相同工业装置的汇总数据集;
S604、将汇总数据集和拼接数据集进行匹配拼接,以形成内部区分明显的总体数据集。
7.一种大数据分析系统,其特征在于,应用于权利要求1-6所述的一种工业互联网大数据分析方法,包括:
数据采集模块;用于根据互联网舆情监控系统对预设周期内的原始数据包进行对信息源收集;
计算筛分模块;用于通过深度学习模型和数据分类算法对数据信息进行拆分和计算筛分,得到冗杂信息和工业数据信息;
标记处理模块;用于对工业数据信息进行标记,并根据标记内容并生成对应的结构化数据、数据集和预测模型;
反馈输出模块;用于通过蓝牙传输输出结构化数据、数据集和预测模型至标记对象的控制计算机;
加密存储模块;用于通过存储芯片和权限加密单元实现对工业数据信息的隔离封存;
读取查询模块;用于通过权限识别单元对所述加密存储模块进行临时加密破解,通过需求输入单元提取所述加密存储模块中的内容;
其中,所述数据收集模块的输入端通过数据端口接入互联网舆情监控系统,所述数据收集模块的输出端通过导线连接所述计算筛分模块的输入端,所述计算筛分模块的输出端通过导线连接所述标记处理模块的输入端,所述标记处理模块的输出端通过导线连接所述加密存储模块和反馈输出模块的输入端,所述反馈输出模块的输出端连接工业装置的控制计算机,所述加密存储模块的输入端通过导线连接所述加密存储模块。
8.根据权利要求7所述的一种大数据分析系统,其特征在于,所述数据采集模块包括系统安装单元、参数配置单元和数据整合单元;所述计算筛分模块包括数据拆分单元和计算筛分单元;所述标记处理单元包括实体标记单元、分类提取单元和识别重构单元;所述反馈输出模块包括蓝牙交互组件和临时存储单元;所述加密存储模块包括存储芯片、权限加密单元和结果反馈单元;所述读取查询模块包括权限识别单元和需求输入单元。
9.根据权利要求8所述的一种大数据分析系统,其特征在于,所述参数配置单元的输出端通过导线连接所述系统安装单元的输入端,所述参数配置单元的输入端通过导线连接控制计算机,所述系统安装单元的输出端通过导线连接所述数据整合单元的输入端,所述数据整合单元的输出端通过导线连接所述数据拆分单元的输入端,所述数据拆分单元的输出端通过导线连接所述计算筛分单元的输入端,所述计算筛分单元的输出端通过导线连接所述实体标记单元和存储芯片的输入端,所述实体标记单元的输出端通过导线连接工业装置的控制计算机和所述分类提取单元的输入端,所述分类提取单元的输出端通过导线连接所述识别重构单元的输入端,所述识别重构单元的输出端通过导线连接所述临时存储单元的输入端,所述临时存储单元的输出端通过导线连接所述蓝牙交互组件的输入端,所述权限加密单元的输出端通过导线连接所述权限识别单元和存储芯片的输入端,所述结果反馈单元的输出端通过导线连接所述需求输入单元的输入端,所述存储芯片的输出端通过导线连接所述结果反馈单元和权限识别单元的输入端。
CN202410524297.5A 2024-04-29 2024-04-29 一种工业互联网大数据分析方法 Pending CN118296326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410524297.5A CN118296326A (zh) 2024-04-29 2024-04-29 一种工业互联网大数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410524297.5A CN118296326A (zh) 2024-04-29 2024-04-29 一种工业互联网大数据分析方法

Publications (1)

Publication Number Publication Date
CN118296326A true CN118296326A (zh) 2024-07-05

Family

ID=91674207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410524297.5A Pending CN118296326A (zh) 2024-04-29 2024-04-29 一种工业互联网大数据分析方法

Country Status (1)

Country Link
CN (1) CN118296326A (zh)

Similar Documents

Publication Publication Date Title
CN109918511B (zh) 一种基于bfs和lpa的知识图谱反欺诈特征提取方法
CN110674840B (zh) 一种多方证据关联模型构建方法和证据链提取方法及装置
CN111538741B (zh) 一种面向警情大数据的深度学习分析方法及系统
CN112367273B (zh) 基于知识蒸馏的深度神经网络模型的流量分类方法及装置
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN112560829B (zh) 人群数量确定方法、装置、设备及存储介质
KR102107911B1 (ko) Ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법
US20240086731A1 (en) Knowledge-graph extrapolating method and system based on multi-layer perception
CN114491034B (zh) 一种文本分类方法及智能设备
CN113946657A (zh) 一种基于知识推理的电力业务意图自动识别方法
CN114218318B (zh) 一种用于电力大数据的数据处理系统及方法
CN115034206A (zh) 一种客服热点事件发现方法及系统
CN111090878A (zh) 一种基于密点的定密管理系统
CN111460139B (zh) 一种基于智慧管理的工程监理知识服务系统及方法
CN115658847B (zh) 一种基于大数据的知识产权成果转化管理系统
CN117077071A (zh) 一种基于数据分级的数据分析方法及系统
CN118296326A (zh) 一种工业互联网大数据分析方法
CN115953041A (zh) 一种营商政策系统的构建方案及系统
CN113538011B (zh) 一种电力系统中非在册联系信息与在册用户的关联方法
CN112668284B (zh) 一种法律文书分段方法及系统
Madhusudhan et al. Attributional analysis of multi-modal fake news detection models (Grand Challenge)
CN111615178B (zh) 识别无线网络类型及模型训练的方法、装置及电子设备
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
CN114330720A (zh) 用于云计算的知识图谱构建方法、设备及存储介质
CN113177164A (zh) 基于大数据的多平台协同新媒体内容监控管理系统

Legal Events

Date Code Title Description
PB01 Publication