CN109885607A - 一种工业海量非结构化数据处理方法及系统 - Google Patents

一种工业海量非结构化数据处理方法及系统 Download PDF

Info

Publication number
CN109885607A
CN109885607A CN201910026057.1A CN201910026057A CN109885607A CN 109885607 A CN109885607 A CN 109885607A CN 201910026057 A CN201910026057 A CN 201910026057A CN 109885607 A CN109885607 A CN 109885607A
Authority
CN
China
Prior art keywords
data
value
threshold
screening
newest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910026057.1A
Other languages
English (en)
Inventor
汪纯锋
王云福
涂红兵
崔晓光
魏欣南
吴作胜
欧荣贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China General Nuclear Power Corp
China Nuclear Power Engineering Co Ltd
CGN Power Co Ltd
Shenzhen China Guangdong Nuclear Engineering Design Co Ltd
Original Assignee
China General Nuclear Power Corp
China Nuclear Power Engineering Co Ltd
CGN Power Co Ltd
Shenzhen China Guangdong Nuclear Engineering Design Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China General Nuclear Power Corp, China Nuclear Power Engineering Co Ltd, CGN Power Co Ltd, Shenzhen China Guangdong Nuclear Engineering Design Co Ltd filed Critical China General Nuclear Power Corp
Priority to CN201910026057.1A priority Critical patent/CN109885607A/zh
Publication of CN109885607A publication Critical patent/CN109885607A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种工业海量非结构化数据处理方法及系统,包括获取生产中产生的非结构化数据;将所述非结构化数据转化为结构化数据;构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值、建立并展示筛选后的时间和有效值之间的关系曲线。本发明将海量的非结构化数据转化为结构化数据,简化了数据处理;实现极短的时间内一次性将百万条数据的趋势曲线进行绘制;将数据可视化成图像更方便生产管理及运维。

Description

一种工业海量非结构化数据处理方法及系统
技术领域
本技术发明属于工业生产数据统计分析领域,具体涉及一种工业海量非结 构化数据处理方法及系统。
背景技术
随着工业的迅猛发展,在面向大型设备的企业信息化过程中,越来越多的 数据采集被用到了工业生产中,进而捕获了大量的工业监测数据。由于绝大部 分监测数据由传感器产生,多为时序数据为主,这些数据通常具有数据量大, 易丢失、具有高度的领域相关性等特点,同时也以一种非结构化的形式存在。
近年,云计算技术的快速普及以及物联网、移动互联网应用程序的大规模 爆发,人类已经全面进入到“大数据”时代,各个行业和领域都在致力于研究 如何利用大数据分析来优化流程,监测发展趋势,从而更好地做出决策。借助 于云计算的处理与应用模式,通过数据相关分析法,可以实现智慧预测和价值 服务。大数据已经成为各行业的重要资产,数据分析能力正在成为核心竞争力。
现有技术中,为记录生产环境中的工作状态信息,设备上装置有传感部件, 用于捕获生产中的环境信息,捕获到的信息多以log信息存储在设备中。生产 中有数据采集设备,也可以捕获数据信息,但无法存储为结构化数据。这种方 式存在当读取生产中的监控信息时,需要人工查看log文件,比较消耗人力和 时间,且效率较低的问题。在此基础上,提出了在生产环境中,为捕获生产中 的状态信息,采用较为先进的捕获设备,并为捕获设备配备专用的存储设备, 用于存储捕获到的信息数据。并能将捕获的信息在显示设备上实时显示出来。 这种方式在实际实施时需设置数据采集设备需要捕获的信息类型;设置数据采集设备捕获后的信息存放的地址信息;设置数据采集信息显示的设备类型及显 示区域;用曲线将所有时间单元内的趋势点按照时间先后顺序连接形成趋势图。 但简单的进行时间分段取极值,当数据量较大时,比如需要显示几个月甚至更 长时间数据时,筛选出来的极值点较多,影响绘图速度,同时,绘制的曲线会 丢失局部的特征值,该特征值即不是极大值,也不是极小值,但是会影响到曲 线的走势,是不可以忽略的。
工业领域,企业生产的数据有多种来源,且分布于多个独立的系统,各数 据源的数据彼此孤立。对于企业基于数据的决策分析者来说,难以利用企业拥 有的全部数据资源实现企业的生产优化、经营管理的优化等。因此,为了监控 系统的即时与历史运行状态,保存企业生产的海量数据,为企业制造及流程的 优化提供信息支撑,所以急需寻求一种工业海量非结构化数据处理方法及系统, 将海量的非结构化数据转化为结构化数据,数据存储,再用于生产的管理及运 营中简化数据处理并将数据可视化成图像更方便生产管理及运维。
发明内容
本发明针对现有技术中所存在的工业监控数据尤其是采集频率较高、周期 较长的数据非结构化的问题,提供了一种将海量的非结构化数据转化为结构化 数据的工业海量非结构化数据处理方法及系统。
本发明就上述技术问题而提出的技术方案如下:一种工业海量非结构化数 据处理方法,包括:获取生产中产生的非结构化数据;将所述非结构化数据转 化为结构化数据;提取所述结构化数据,构建生成器函数,按照生成器函数所 建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所 有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选 后的时间和有效值之间的关系曲线。
其中,所述将所述非结构化数据转化为结构化数据进一步包括:将获取到 的非结构化数据通过Spark SQL读取为RDD,或将多个文本文件读取为一个 PairRDD,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文 件;将所述.csv文件保存在存储设备上。
其中,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件, 在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗, 满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。
其中,所述单阈值筛选条件为:当前值与最新筛选出的值之间的差值与单 阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行 清洗;所述累积阈值筛选条件为:当前值和与最新筛选出的值进行比较,如果 当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值, 并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。
其中,所述生成器函数还包括绝对阈值筛选条件,所述绝对阈值筛选条件 为:当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定 段,保留该恒定段的起始点和终点数据值。
另一方面,本发明还提供了一种工业海量非结构化,包括:数据采集模块, 用于获取生产中产生的非结构化数据;数据转换模块,连接所述数据采集模块, 用于将所述非结构化数据转化为结构化数据;数据清洗和展示模块,连接所述 数据转换模块,用于提取所述结构化数据,构建生成器函数,按照生成器函数 所建立的筛选条件,对结构化数据进行清洗,筛选出有效值,从筛选出的所有 时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后 的时间和有效值之间的关系曲线。
其中,所述数据转换模块进一步包括:转换模块和存储模块,转换模块, 连接所述数据采集模块,用于将获取到的非结构化数据通过Spark SQL读取为 RDD,或将多个文本文件读取为一个PairRDD,形成带有键值对的文件,并将读 取后的结构化数据文件转换为.csv文件;存储模块,连接所述转换模块,用于 将所述.csv文件保存在存储设备上。
其中,所述数据清洗和展示模块进一步包括:数据清洗模块和展示模块, 数据清洗模块,用于构建生成器函数,所述生成器函数包括设定的单阈值筛选 条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选 条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据 进行保留,否则进行清洗。
其中,所述数据清洗模块进一步包括:单阈值筛选模块和累积阈值筛选模 块,所述单阈值筛选模块,用于将当前值与最新筛选出的值之间的差值与单阈 值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清 洗;所述累积阈值筛选模块,用于将当前值和与最新筛选出的值进行比较,如 果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前 值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。
其中,所述数据清洗模块还包括:绝对阈值筛选模块,所述绝对阈值筛选 模块,用于设定一绝对阈值筛选条件,当前值与筛选值的累积差值在某一时间 段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。
本发明提供的技术方案带来的有益效果是:本发明针对现有技术中所存在 的工业监控数据尤其是采集频率较高、周期较长的数据非结构化的问题,提供 了一种将海量的非结构化数据转化为结构化数据的工业海量非结构化数据处理 方法及系统。本发明使用Spark SQL技术对海量的非结构化数据自动进行转换 操作,转化为结构化数据,简化了数据处理;有专用的存储机制和设备可以保 存转化后的结构化数据,供后期的生产及运维提数据支撑;通过数据清洗方式 得到有效数据值,可在极短的时间内(秒级)一次性将百万条数据提取,并且 快速进行趋势图绘制;通过绘图工具将数据可视化成图像更方便生产管理及运 维。
附图说明
图1是本发明实施例一提供的工业海量非结构化数据处理方法流程图;
图2是本发明实施例一中步骤S200的流程图;
图3为本发明实施例一中步骤S300的流程图;
图4是本发明实施例一提供的工业海量非结构化数据处理方法数据清洗流 程图;
图5为本发明实施例一提供的经数据清洗后的数据形成曲线与原数据形成 曲线的对比图;
图6是本发明实施例二提供的工业海量非结构化数据处理系统结构示意图;
图7是本发明实施例二提供的工业海量非结构化数据处理系统数据转换模 块结构示意图;
图8为本发明实施例二提供的工业海量非结构化数据处理系统数据清洗和 展示模块结构示意图;
图9为本发明实施例二提供的工业海量非结构化数据处理系统数据清洗模 块结构示意图。
具体实施方式
为了解决现有技术中所存在的工业监控数据尤其是采集频率较高、周期较 长的数据非结构化的问题,本发明旨在提供一种工业海量非结构化数据处理方 法及系统,实现非结构化数据结构化,提高数据处理的速度,其核心思想是: 使用Spark SQL技术对非结构化数据自动进行转换操作,将获取到的海量的非 结构化数据通过Spark SQL读取为RDD,或将多个文本文件读取为一个PairRDD, 形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;同时, 所述.csv文件保存在存储设备上,可以保存数年的历史数据,供后期的生产及 运维提数据支撑;另外,通过构建生成器函数,按照生成器函数所建立的筛选 条件,对结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该 时间段对应有效值中分别提取时间和有效值、并建立时间和有效值之间的关系 曲线并展示筛选后的关系曲线,可实现极短的时间内(秒级)一次性将百万条 数据的趋势曲线进行绘制,并将数据可视化成图像更方便生产管理及运维。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施方式作进一步地详细描述。
实施例一
本发明实施提供了一种工业海量非结构化数据处理方法,参见图1,该方法 包括:
S100、数据采集步骤:获取生产中产生的非结构化数据;利用信息采集设备, 对生产中产生的数据进行采集,采集到的数据多以二进制文件形式存储超大文 本、二进制文件、图形、图像、音频、视频等非结构化数据。
S200、数据转换步骤:将所述非结构化数据转化为结构化数据;
S300、数据清洗和展示步骤:提取所述结构化数据,构建生成器函数,按 照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值, 从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建 立并展示筛选后的时间和有效值之间的关系曲线。
其中,参见附图2,步骤S200进一步包括:
S201、转换步骤:将获取到的非结构化数据通过Spark SQL读取为RDD,或 将多个文本文件读取为一个PairRDD,形成带有键值对的文件,并将读取后的结 构化数据文件转换为.csv文件;
S202、存储步骤:将所述.csv文件保存在存储设备上,所述存储设备可采 用集群分布式存储,扩展存储能力及存储速度。
Spark这种大规模数据处理技术的快速发展,能够处理抽像的数据结构,对 数据进行RDD操作,再对RDD进行键值对的转换,保存为数据库可行读取的格 式。
参见附图3,步骤S300进一步包括:
S301、单阈值筛选条件:当前值与最新筛选出的值之间的差值与单阈值进 行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;
S302、累积阈值筛选条件:当前值和与最新筛选出的值进行比较,如果当 前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值, 并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗;
S303、绝对阈值筛选条件:当前值与筛选值的累积差值在某一时间段小于 绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。
根据所述结构化数据特点和应用需求,对结构化数据依据上述筛选条件进 行判断,所述筛选条件可以分开使用,也可以结合使用。
进一步地,结合附图4,工业海量非结构化数据处理方法数据清洗步骤具体 流程为,利用将保存在.csv文件中的结构化数据通过python逐个读入numpy数 组中,按时间顺序进行排序,构建生成器函数,每次接收一个值(now)进行处 理,首先进行单阈值筛选:将当前值(now)与最新筛选出的值(last)之间的 差值与单阈值进行比较,判断当此差值是否小于单阈值的绝对值,即大于负单 阈值(-th_value)且小于正单阈值(th_value),若否,则保存数据,若是,则 进行累计阈值判别,将累计变化值与累计阈值进行比较,判断累积变化值是否 小于累计阈值的绝对值,即大于负累计阈值(-accu_th)且小于正累计阈值 (accu_th),若否,则保存数据,若是,则清洗数据,对下一个结构化数据进行 判断。
进一步地,图5为本发明实施例一提供的经数据清洗后的数据形成曲线与 原数据形成曲线的对比图,参见附图5,图中以某电厂模拟压力容器一个月温度 数据为分析对象,数据的采集频率为1s,通过Spark SQL将采集到的数据读取 为RDD,以CSV格式保存在存储设备上,再将保存在.csv文件中的数据通过 python的numpy读入数组中,一共50多万条数据,按时间顺序进行排序;由于 数据主要用于热疲劳分析计算,对于较小的温度波动可以忽略,因此,用户设 置相应阈值,用于筛选出温度变化有效数据,比如设置单阈值为1.5,累积阈值 为15,同时将累积值的绝对值小于0.005的时间段认为该时间段数据无变化, 仅保留恒定段的起始点和终点数据;利用生成器函数,筛选有效值;从筛选出 的所有时间-值数据中分别提取时间和值作为绘图的X轴和Y轴;利用 matplotlib对筛选后的数据进行绘图,结果如图5所示,深灰色为初始数据曲 线,黑色为筛选后的数据曲线,从图中可以看出:经过数据清洗筛选后,绘制 出的图形趋势没变,减少了很多无效数据,实现快速进行趋势图绘制。
上述方法针对工业监控数据尤其是采集频率较高、周期较长的数据进行数 据处理,根据行业背景和数据特点,选择处理方法并设定合适阈值,为趋势曲 线绘制和后端数据应用分析提供有效的数据,并且通过第三方绘图软件将所提 供的有效数据进行趋势图的绘制,将数据可视化成图像更方便生产管理及运维。
在本发明实施例中,结构化数据是指具有固定的结构、规范、一致的基本 属性的数据,通常称为关系型数据。非结构化数据是指指数据结构不规则或是 不完整,没有预定的数据模型不方便使用数据库二维逻辑表来表现的数据。 Spark是一款Apache基金会旗下的顶级项目,专为大规模数据处理理设计的快 速通用计算引擎。RDD全称ResilientDistributed Datasets,弹性分布式数 据集,是分布内存的一个抽象概念,Spark技术的核心。NumPy是一个用python 实现的科学计算包,SciPy:一款包括统计、优化、整合、线性代数等模块,专 为科学和工程设计的Python工具包,matplotlib是一个以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的2D绘图库。需要说明的是,Numpy可换 成pandas库对数据进行处理;且经过清洗转换后的数据绘制成趋势图折工具不 限于使用matplotlib。
实施例二
本发明实施例提供了一种工业海量非结构化数据处理系统,参见图6为本 发明实施例二的系统结构图,该系统包括:数据采集模块100,用于获取生产中 产生的非结构化数据,采集到的数据多以二进制文件形式存储超大文本、二进 制文件、图形、图像、音频、视频等非结构化数据;数据转换模块200,连接所 述数据采集模块100,用于将所述非结构化数据转化为结构化数据;数据清洗和 展示模块300,连接所述数据转换模块200,用于提取所述结构化数据,构建生 成器函数,按照生成器函数所建立的筛选条件,将结构化数据按照相对变化和 累积变化进行筛选清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间 的关系曲线。
进一步地,图7是本发明实施例二提供的工业海量非结构化数据处理系统 数据转换模块结构示意图,参见附图7,所述数据转换模块200进一步包括:转 换模块210和存储模块220,转换模块210,连接所述数据采集模块100,用于 将获取到的非结构化数据通过Spark SQL读取为RDD,或将多个文本文件读取为 一个PairRDD,形成带有键值对的文件,并将读取后的结构化数据文件转换 为.csv文件;存储模块220,连接所述转换模块210,用于将所述.csv文件保 存在存储设备上。需要说明的是,对于非结构化数据的处理亦可使用Hadoop技 术,分布式节点上运行着附带数据存储的DataNode和负责任务执行的TaskTracker.数据存储过程中,NameNode将一个文件分成一个或多个block, 存储在DataNode集合里。再由jobtracker提交Map/reduce作业,进行数据块 处理,将非结构化数据转化为结构化数据;同时,数据存储设备可采用集群分 布式存储,扩展存储能力及存储速度。
图8为本发明实施例二提供的工业海量非结构化数据处理系统数据清洗和 展示模块结构示意图,参见附图8,所述数据清洗和展示模块300进一步包括: 数据清洗模块310和展示模块320,数据清洗模块310,用于构建生成器函数, 所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间 段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈 值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。展示模块320, 连接数据清洗模块310,利用python及第三方的数据处理插件(NumPy)、数据 分析插件(SciPy)以及绘图插件(matplotlib),将分析清洗后的数据按照时 间顺序一次性将大量的数据提取,并且快速进行趋势图绘制。
图9为本发明实施例二提供的工业海量非结构化数据处理系统数据清洗模 块结构示意图,参见附图9,所述数据清洗模块310进一步包括:单阈值筛选模 块311、累积阈值筛选模块312和绝对阈值筛选模块313,所述单阈值筛选模块 311,用于将当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于 单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选 模块312,用于将当前值和与最新筛选出的值进行比较,如果当前值和最新筛选 出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值 作为最新筛选出的有效值进行保留,否则进行清洗;所述绝对阈值筛选模块313, 用于设定一绝对阈值筛选条件,当前值与筛选值的累积差值在某一时间段小于 绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。通过数 据清洗模块,可对海量的结构化数据进行清洗,提取其中的有效值,用于生产 的管理及运营中。
需要说明的是:上述实施例提供数据处理方法在数据处理系统实现时,仅以 上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功 能分配由不同的功能模块,即将设备的内部结构划分成不同的功能模块,以完 成以上描述的全部或者部分功能。另外,上述实施例提供的系统和方法实施例 属于同一构思,其具体实现过程详见方法实施例的描述,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过 硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于 一种计算机可读存储介质中。上面所提到的控制或者实现的切换功能都是通过 控制器实现,控制单元可以是中央处理单元(Central Processing Unit,CPU), 还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、 专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编 程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、 分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或 者该处理器也可以是任何常规的处理器等。上面所提到的存储器可以是终端内 置的存储设备,例如硬盘或内存。本发明系统还包括了存储器,存储器也可以是系统的外部存储设备,插接式硬盘,智能存储卡(Smart Media Card,SMC), 安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器还可以既 包括系统的内部存储单元,也包括外部存储设备,用于存储计算机程序以及所 需的其他程序和信息。存储器还可以用于暂时地存储已经输出或者将要输出的 信息。
综上所述,本发明提供了一种工业海量非结构化数据处理方法及系统,技 术关键点主要包括:将非结构化数据转换为结构化数据,使用Spark SQL技术 对非结构化数据自动进行转换操作,将获取到的海量的非结构化数据通过Spark SQL读取为RDD,或将多个文本文件读取为一个PairRDD,形成带有键值对的文 件,并将读取后的结构化数据文件转换为.csv文件;保存数据,所述.csv文件 保存在存储设备上,可以保存数年的历史数据,供后期的生产及运维提数据支 撑;数据清洗,通过构建生成器函数,按照生成器函数所建立的筛选条件,对 结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对 应有效值中分别提取时间和有效值、并建立时间和有效值之间的关系曲线并展 示筛选后的关系曲线,可实现极短的时间内(秒级)一次性将百万条数据的趋 势曲线进行绘制,数据展示,通过绘图软件将数据可视化成图像更方便生产管 理及运维。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。

Claims (10)

1.一种工业海量非结构化数据处理方法,其特征在于,包括:
获取生产中产生的非结构化数据;
将所述非结构化数据转化为结构化数据;
提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。
2.根据权利要求1所述方法,其特征在于,所述将所述非结构化数据转化为结构化数据进一步包括:将获取到的非结构化数据通过Spark SQL读取为RDD,或将多个文本文件读取为一个PairRDD,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;将所述.csv文件保存在存储设备上。
3.根据权利要求1所述方法,其特征在于,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。
4.根据权利要求3所述方法,其特征在于,所述单阈值筛选条件为:当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选条件为:当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。
5.根据权利要求4所述方法,其特征在于,所述生成器函数还包括绝对阈值筛选条件,所述绝对阈值筛选条件为:当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。
6.一种工业海量非结构化数据处理系统,其特征在于,包括:
数据采集模块,用于获取生产中产生的非结构化数据;
数据转换模块,连接所述数据采集模块,用于将所述非结构化数据转化为结构化数据;
数据清洗和展示模块,连接所述数据转换模块,用于提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。
7.根据权利要求6所述系统,其特征在于,所述数据转换模块进一步包括:转换模块和存储模块,转换模块,连接所述数据采集模块,用于将获取到的非结构化数据通过SparkSQL读取为RDD,或将多个文本文件读取为一个PairRDD,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;存储模块,连接所述转换模块,用于将所述.csv文件保存在存储设备上。
8.根据权利要求6所述系统,其特征在于,所述数据清洗和展示模块进一步包括:数据清洗模块和展示模块,数据清洗模块,用于构建生成器函数,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。
9.根据权利要求8所述系统,其特征在于,所述生成器模块进一步包括:单阈值筛选模块和累积阈值筛选模块,所述单阈值筛选模块,用于将当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选模块,用于将当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。
10.根据权利要求9所述系统,其特征在于,所述生成器模块还包括:绝对阈值筛选模块,所述绝对阈值筛选模块,用于设定一绝对阈值筛选条件,当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。
CN201910026057.1A 2019-01-11 2019-01-11 一种工业海量非结构化数据处理方法及系统 Pending CN109885607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910026057.1A CN109885607A (zh) 2019-01-11 2019-01-11 一种工业海量非结构化数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910026057.1A CN109885607A (zh) 2019-01-11 2019-01-11 一种工业海量非结构化数据处理方法及系统

Publications (1)

Publication Number Publication Date
CN109885607A true CN109885607A (zh) 2019-06-14

Family

ID=66925951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910026057.1A Pending CN109885607A (zh) 2019-01-11 2019-01-11 一种工业海量非结构化数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN109885607A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458397A (zh) * 2019-07-05 2019-11-15 苏州热工研究院有限公司 一种核电材料服役性能信息提取方法
CN111814013A (zh) * 2020-07-19 2020-10-23 山东建筑大学 一种基于大数据的智慧企业信息处理方法
WO2023124009A1 (zh) * 2021-12-31 2023-07-06 北京石头创新科技有限公司 一种清洁机器人的状态判断方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239506A (zh) * 2014-09-12 2014-12-24 北京优特捷信息技术有限公司 一种非结构化数据处理方法及装置
US20170154314A1 (en) * 2015-11-30 2017-06-01 FAMA Technologies, Inc. System for searching and correlating online activity with individual classification factors
CN107679634A (zh) * 2017-10-27 2018-02-09 国网陕西省电力公司西安供电公司 一种基于数据可视化的供电故障报修分析和预测的方法
CN108171617A (zh) * 2017-12-08 2018-06-15 全球能源互联网研究院有限公司 一种电网大数据分析方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239506A (zh) * 2014-09-12 2014-12-24 北京优特捷信息技术有限公司 一种非结构化数据处理方法及装置
US20170154314A1 (en) * 2015-11-30 2017-06-01 FAMA Technologies, Inc. System for searching and correlating online activity with individual classification factors
CN107679634A (zh) * 2017-10-27 2018-02-09 国网陕西省电力公司西安供电公司 一种基于数据可视化的供电故障报修分析和预测的方法
CN108171617A (zh) * 2017-12-08 2018-06-15 全球能源互联网研究院有限公司 一种电网大数据分析方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙海珍等: "《Visual FoxPro 8.0数据库程序设计》", 31 December 2009 *
青岛英谷教育科技股份有限公司等: "《大数据开发与应用》", 31 August 2018 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458397A (zh) * 2019-07-05 2019-11-15 苏州热工研究院有限公司 一种核电材料服役性能信息提取方法
CN111814013A (zh) * 2020-07-19 2020-10-23 山东建筑大学 一种基于大数据的智慧企业信息处理方法
WO2023124009A1 (zh) * 2021-12-31 2023-07-06 北京石头创新科技有限公司 一种清洁机器人的状态判断方法及装置

Similar Documents

Publication Publication Date Title
CN109684352B (zh) 数据分析系统、方法、存储介质及电子设备
CN104881424B (zh) 一种基于正则表达式的电力大数据采集、存储及分析方法
CN111077870A (zh) 一种基于流计算的opc数据实时采集监控智能系统及方法
CN105608223B (zh) 针对kafka的Hbase数据库的入库方法和系统
CN111339071B (zh) 一种多源异构数据的处理方法及装置
CN110007913A (zh) 可视化的数据处理流程设置方法、装置、设备及存储介质
CN109885607A (zh) 一种工业海量非结构化数据处理方法及系统
CN106777093B (zh) 基于空间时序数据流应用的Skyline查询系统
CN102880709A (zh) 数据仓库管理系统和数据仓库管理方法
CN110807026A (zh) 一种用于分析金融大数据血缘关系的自动化捕获系统
CN104750813A (zh) 一种基于数据归约模型的数据清洗方法
CN113420009B (zh) 一种基于大数据的电磁数据分析装置、系统及方法
CN106294390A (zh) 一种数据挖掘分析方法及系统
CN113722383A (zh) 一种基于时序情报调查装置及方法
Dong et al. Forecasting smart meter energy usage using distributed systems and machine learning
CN112765150A (zh) 大数据异构融合提取方法及装置
Sathyamoorthy et al. Energy efficiency as an orchestration service for mobile Internet of Things
CN117009837A (zh) 一种基于多域数据的自动智能稽核系统及方法
CN112527887A (zh) 一种应用于Gbase数据库的可视化运维方法及装置
CN116805940A (zh) 基于可扩展边缘计算的数据采集系统及方法
CN111798311A (zh) 基于大数据的银行风险分析库平台、搭建方法及可读介质
CN117315082A (zh) 基于全景电网图数据模型的母线支路专题图快速生成方法
WO2023179076A1 (zh) 基于混合整数规划的针对工业设施的负荷分解方法和装置
CN110825744A (zh) 一种基于集群环境的空气质量监测大数据分区存储方法
CN109165203A (zh) 基于Hadoop架构的大型公共建筑能耗数据存储分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190614