CN113535422A - 一种面向工业大数据的数据清洗和事件处理的云平台系统 - Google Patents

一种面向工业大数据的数据清洗和事件处理的云平台系统 Download PDF

Info

Publication number
CN113535422A
CN113535422A CN202010329550.3A CN202010329550A CN113535422A CN 113535422 A CN113535422 A CN 113535422A CN 202010329550 A CN202010329550 A CN 202010329550A CN 113535422 A CN113535422 A CN 113535422A
Authority
CN
China
Prior art keywords
data
event
module
attributes
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010329550.3A
Other languages
English (en)
Inventor
卓琳
黄晁
方浩杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Zhongke Jidong Information Technology Co ltd
Ningbo Institute Of Information Technology Application Chinese Academy Of Sciences Ningbo Institute Of Artificial Intelligence Industry
Original Assignee
Ningbo Zhongke Jidong Information Technology Co ltd
Ningbo Institute Of Information Technology Application Chinese Academy Of Sciences Ningbo Institute Of Artificial Intelligence Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Zhongke Jidong Information Technology Co ltd, Ningbo Institute Of Information Technology Application Chinese Academy Of Sciences Ningbo Institute Of Artificial Intelligence Industry filed Critical Ningbo Zhongke Jidong Information Technology Co ltd
Priority to CN202010329550.3A priority Critical patent/CN113535422A/zh
Publication of CN113535422A publication Critical patent/CN113535422A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向工业大数据的数据清洗和事件处理的云平台系统,该系统可实现多数据源数据实时采集、数据预处理、重复记录检测和清洗、事件关系建模,从而提高数据质量,为企业优化流程、预防故障、提高生产效益和社会价值提供实时可靠的事件信息。为了实现上述目的,本发明提供一种面向工业大数据的数据清洗和事件处理的云平台系统,该系统包括:多数据源数据采集模块,用于从多个不同数据源系统采集不同格式的非结构化数据,存入消息中间件;数据预处理模块,用于数据格式标准化、规范化,属性拆分、合并,缺失值补全等操作;重复记录检测和清洗模块,用于识别相似重复记录,检测并清洗离群点数据;事件关系建模模块,用于对之前处理的一系列完整和详细的对事件描述的事件集合进行分类和关联,构建出事件关联图。

Description

一种面向工业大数据的数据清洗和事件处理的云平台系统
技术领域
本发明涉及大数据分析应用及工业控制领域,尤其涉及一种面向工业大数据的数据清洗和事件处理的云平台系统。
背景技术
随着工业自动化技术和大数据技术的不断更新与发展,越来越多在工业生产过程各环节中采集到的数据被实时存储到数据仓库中,这些数据数量庞大、种类繁多、关系复杂、冗余度高,无法被直接利用管理。工业过程中很多重要的关键信息隐藏在海量工业数据中,将这些有益信息用高效快捷的方式挖掘出来应用与生产过程中,将极大地提高生产效益和社会价值。
工业大数据分析有别于其它领域或行业的大数据分析。数据来源多样,工业大数据以非结构化和半结构化为主,不同数据之间存在复杂的内部关系,数据量增长快,动态的实时数据对工业过程控制的参考价值高,工业数据价值密度低。因此,对工业大数据的分析和处理需要通过采用有针对性的处理工具和计算模型来满足对数据的实时清洗和事件处理。数据清洗是为了解决数据质量的问题,通过识别工业大数据中的错误记录并对记录进行修正,能够尽最大可能确保交付数据的一致性和准确性,进而提高参加决策的数据质量;事件处理是在数据清洗的基础上寻找对工业过程控制有用的事件信息,并通过可视化的方式展示出来,然后通过事件检测和事件关联将事件以合理化的形式展现,对企业后续分析问题、研究措施、解决问题和预防故障起到积极的作用。
发明内容
本发明的目的就在于为了解决上述问题而提供一种面向工业大数据的数据清洗和事件处理的云平台系统,该系统可实现多数据源数据实时采集、数据预处理、重复记录检测和清洗、事件关系建模,从而提高数据质量,为企业优化流程、预防故障、提高生产效益和社会价值提供实时可靠的事件信息。
为了实现上述目的,本发明提供一种面向工业大数据的数据清洗和事件处理的云平台系统,该系统包括:多数据源数据采集模块,用于从多个不同数据源系统采集不同格式的非结构化数据,存入消息中间件;数据预处理模块,用于数据格式标准化、规范化,属性拆分、合并,缺失值补全等操作;重复记录检测和清洗模块,用于识别相似重复记录,检测并清洗离群点数据;事件关系建模模块,用于对之前处理的一系列完整和详细的对事件描述的事件集合进行分类和关联,构建出事件关联图。
优选的,云平台系统作为一种数据采集、处理和生成事件关联图的平台。
优选的,多数据源数据采集模块包括:数据采集传输接口,对不同数据源的数据系统提供统一开放接口,用多进程并发形式采集非结构化数据,并存入一种高吞吐量的分布式发布订阅消息中间件;数据采集进程动态分配接口,自动感知不同传输速度的数据源系统并分配合适的采集进程数量,对空闲进程及时回收。
优选的,数据预处理模块包括:属性选取,对属性进行特征选择;属性取值标准化,如时间格式标准化、计量单位标准化等;属性缺失值补全,利用平均值填充方式对缺失字段进行处理;按照属性关键字进行记录排序,属性综合权重分配。
优选的,重复记录检测和清洗模块包括:通过计算不同类型字段相似度对重复记录进行聚类归并;通过基于聚类的离群点检测筛出离群点数据存入特定模块等待深层次的分析检测和异常挖掘。
优选的,事件关系建模模块包括:用模糊匹配原理计算事件特征的关联强度,计算出基于时序的事件关联对应矩阵,再根据矩阵可描绘出事件之间关联关系的图谱。
附图说明
图1为本发明中的系统结构示意图。
图2为本发明中的数据采集模块。
图3为本发明中的数据预处理模块。
图4为本发明中的重复记录检测和清洗模块。
图5为本发明中的事件关系建模模块。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做出详细的说明。
本发明实施例提供了一种面向工业大数据的数据清洗和事件处理的云平台系统,该系统能快速从多个数据源系统获取不同格式的非结构化数据,通过数据预处理、数据清洗、数据冲突解决和事件关系建模等模块得到事件关联关系的图谱,为工业生产指导决策提供可靠依据。
如图1所示。本发明实施例的系统结构包括数据采集模块、消息中间件、数据预处理模块、数据清洗模块、数据冲突解决模块和事件关系建模模块。数据源为工业生产系统中各子系统或其它部门系统产生的数据。
如图2所示,所述的数据采集模块开放了数据采集接口,通过进程调度器提供的动态进程采集数据,进程调度器可以通过数据采集接口监控的实时流量为不同数据源分配合适的进程数,及时回收空闲进程,对异常进程进行日志记录并尝试主动恢复,同时通知系统运维人员,以便在自动恢复失败的情况下人工介入恢复,避免数据丢失。
如图3所示,所述的数据预处理模块从消息中间件中订阅消息,获取到上述数据采集模块的数据形成数据集。根据特征选择出有代表性的属性,对属性进行拆分合并,对部分取值表现形式各异的数据进行数据格式标准化统一,用平均值填充方式对缺失的属性进行补全。选取记录的某一属性作为关键字,根据选取的关键字对数据集进行排序操作,使潜在的可能构成相似重复记录的属性尽量在相邻的位置。结合领域知识和专家经验为各属性进行贡献度等级分配,范围为不可重复的正整数,某一属性的贡献度越大、等级越高、权值越大,在判重中的作用就越大。可以通过属性综合加权法和归一法得到综合属性权值。
如图4所示,所述的重复记录检测和清洗模块从上述数据预处理模块处理完的数据集中根据综合属性权值对重复记录聚类归并,清除相似重复记录。对显著偏离数据集中的数据进行基于聚类的离群点检测,聚类过程包括计算距离、聚类法分析和结果有效性分析。检测出的离群点数据将导入异常数据处理系统中等待深层次的分析检测和异常挖掘。
如图5所示,在所述的事件关系建模模块中,利用模糊匹配的原理计算事件特征的关联强度,将上述数据预处理模块中属性的权重和属性出现情况作为考量标准,计算属性的关联强度,再通过求取属性关联强度的平均值计算时间的关联强度,得到基于时序的事件关联对应矩阵,根据矩阵描绘出用节点和有向边组合生成的以实体为中心的事件关联图谱。

Claims (1)

1.一种面向工业大数据的数据清洗和事件处理的云平台系统,其特征在于该云平台系统包括数据采集模块、消息中间件、数据预处理模块、数据清洗模块、数据冲突解决模块和事件关系建模模块。数据源为工业生产系统中各子系统或其它部门系统产生的数据。
数据采集模块开放了数据采集接口,通过进程调度器提供的动态进程采集数据,进程调度器可以通过数据采集接口监控的实时流量为不同数据源分配合适的进程数,及时回收空闲进程,对异常进程进行日志记录并尝试主动恢复,同时通知系统运维人员,以便在自动恢复失败的情况下人工介入恢复,避免数据丢失。
数据预处理模块从消息中间件中订阅消息,获取到上述数据采集模块的数据形成数据集。根据特征选择出有代表性的属性,对属性进行拆分合并,对部分取值表现形式各异的数据进行数据格式标准化统一,用平均值填充方式对缺失的属性进行补全。选取记录的某一属性作为关键字,根据选取的关键字对数据集进行排序操作,使潜在的可能构成相似重复记录的属性尽量在相邻的位置。结合领域知识和专家经验为各属性进行贡献度等级分配,范围为不可重复的正整数,某一属性的贡献度越大、等级越高、权值越大,在判重中的作用就越大。可以通过属性综合加权法和归一法得到综合属性权值。
重复记录检测和清洗模块从上述数据预处理模块处理完的数据集中根据综合属性权值对重复记录聚类归并,清除相似重复记录。对显著偏离数据集中的数据进行基于聚类的离群点检测,聚类过程包括计算距离、聚类法分析和结果有效性分析。检测出的离群点数据将导入异常数据处理系统中等待深层次的分析检测和异常挖掘。
事件关系建模模块中,利用模糊匹配的原理计算事件特征的关联强度,将上述数据预处理模块中属性的权重和属性出现情况作为考量标准,计算属性的关联强度,再通过求取属性关联强度的平均值计算时间的关联强度,得到基于时序的事件关联对应矩阵,根据矩阵描绘出用节点和有向边组合生成的以实体为中心的事件关联图谱。
CN202010329550.3A 2020-04-20 2020-04-20 一种面向工业大数据的数据清洗和事件处理的云平台系统 Pending CN113535422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010329550.3A CN113535422A (zh) 2020-04-20 2020-04-20 一种面向工业大数据的数据清洗和事件处理的云平台系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010329550.3A CN113535422A (zh) 2020-04-20 2020-04-20 一种面向工业大数据的数据清洗和事件处理的云平台系统

Publications (1)

Publication Number Publication Date
CN113535422A true CN113535422A (zh) 2021-10-22

Family

ID=78094171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010329550.3A Pending CN113535422A (zh) 2020-04-20 2020-04-20 一种面向工业大数据的数据清洗和事件处理的云平台系统

Country Status (1)

Country Link
CN (1) CN113535422A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490616A (zh) * 2022-02-10 2022-05-13 北京星汉博纳医药科技有限公司 数据清洗方法、装置、电子设备及存储介质
CN114722037A (zh) * 2022-05-16 2022-07-08 中国信息通信研究院 工业互联网中间件数据处理方法、中间件和可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490616A (zh) * 2022-02-10 2022-05-13 北京星汉博纳医药科技有限公司 数据清洗方法、装置、电子设备及存储介质
CN114722037A (zh) * 2022-05-16 2022-07-08 中国信息通信研究院 工业互联网中间件数据处理方法、中间件和可读存储介质
CN114722037B (zh) * 2022-05-16 2022-08-26 中国信息通信研究院 工业互联网中间件数据处理方法、中间件和可读存储介质

Similar Documents

Publication Publication Date Title
CN111475804B (zh) 一种告警预测方法及系统
US11093519B2 (en) Artificial intelligence (AI) based automatic data remediation
CN112256782B (zh) 基于Hadoop的电力大数据处理系统
CN108038049B (zh) 实时日志控制系统及控制方法、云计算系统及服务器
CN113010506B (zh) 一种多源异构水环境大数据管理系统
CN111259947A (zh) 一种基于多模态学习的电力系统故障预警方法和系统
CN104112026A (zh) 一种短信文本分类方法及系统
CN113535422A (zh) 一种面向工业大数据的数据清洗和事件处理的云平台系统
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN103678051B (zh) 一种集群数据处理系统中的在线故障容错方法
Yin et al. Improving log-based anomaly detection with component-aware analysis
CN108280021A (zh) 一种基于机器学习的日志等级分析方法
CN111949480A (zh) 一种基于组件感知的日志异常检测方法
CN112559280A (zh) 基于数据中台的数据全链路监控方法
CN111581298B (zh) 大数据仓库的异构数据整合系统及方法
CN112650739A (zh) 煤矿数据中台的数据存储处理方法和装置
CN117333038A (zh) 一种基于大数据的经济趋势分析系统
CN112151185A (zh) 一种儿童呼吸疾病与环境数据关联分析方法及系统
CN112052284A (zh) 一种大数据下的主数据管理方法及系统
CN111400122B (zh) 一种硬盘健康度评估方法及装置
CN116881376A (zh) 一种企业数据资产的自动探索方法
CN106649034A (zh) 一种可视化智能运维方法及平台
CN110619572A (zh) 一种监控企业公开数据高容错性增长的方法
Cupek et al. Data preprocessing, aggregation and clustering for agile manufacturing based on automated guided vehicles
Karthik et al. Defect association and complexity prediction by mining association and clustering rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 9 / F, building C9, No.19, Lane 299, Guanghua Road, high tech Zone, Ningbo City, Zhejiang Province

Applicant after: Ningbo Zhongke Information Technology Application Research Institute (Ningbo Artificial Intelligence Industry Research Institute)

Applicant after: Ningbo Zhongke Jidong Information Technology Co.,Ltd.

Address before: 9 / F, building C9, No.19, Lane 299, Guanghua Road, high tech Zone, Ningbo City, Zhejiang Province

Applicant before: Ningbo Institute of information technology application, Chinese Academy of Sciences (Ningbo Institute of artificial intelligence industry)

Applicant before: Ningbo Zhongke Jidong Information Technology Co.,Ltd.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211022