CN106407278B - 一种大数据平台的架构设计系统 - Google Patents

一种大数据平台的架构设计系统 Download PDF

Info

Publication number
CN106407278B
CN106407278B CN201610741464.7A CN201610741464A CN106407278B CN 106407278 B CN106407278 B CN 106407278B CN 201610741464 A CN201610741464 A CN 201610741464A CN 106407278 B CN106407278 B CN 106407278B
Authority
CN
China
Prior art keywords
data
module
big data
big
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610741464.7A
Other languages
English (en)
Other versions
CN106407278A (zh
Inventor
胡星
马于涛
徐向军
周红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Steel Engineering Technology Group Communication Co., Ltd.
Original Assignee
Baoxin Software Wuhan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baoxin Software Wuhan Co Ltd filed Critical Baoxin Software Wuhan Co Ltd
Priority to CN201610741464.7A priority Critical patent/CN106407278B/zh
Publication of CN106407278A publication Critical patent/CN106407278A/zh
Application granted granted Critical
Publication of CN106407278B publication Critical patent/CN106407278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据平台的架构设计系统,包括:数据感知模块、数据采集模块和转换模块。数据感知模块,用于对互联网上或局域网内的数据源进行定位和识别;数据采集模块,用于从数据源中采集大数据,并将所述大数据按照数据类型进行归类;转换模块,用于将所述大数据按照转换规则进行转换,得到面向特定领域或主题的数据,所述转换规则是在数据使用功能和数据源之间建立的对应规则。本发明能够从数据源中获得大数据,进而转换为特定领域或主题的数据,能够为流程工业企业提供大数据解决方案的公共参考架构,满足不同的工业企业对大数据的分析处理要求。

Description

一种大数据平台的架构设计系统
技术领域
本发明涉及制造企业工业大数据处理、分析及应用技术领域,特别涉及一种大数据平台的架构设计系统。
背景技术
大数据产业是继云计算、物联网和移动互联网之后,新一代信息技术与电子商务智能制造等新型商业应用深度融合的产物,正在成为信息技术的新热点、产业发展的新方向,将对人类的生产与生活产生巨大影响,并对经济与社会发展带来深刻变革。把握大数据发展方向,推动大数据开发应用,发展大数据服务产业,有利于推进武钢高新产业板块创新发展和转型升级。
流程工业企业是我国制造业的重要组成部分,经济总量规模巨大,其中钢铁、氧化铝和水泥等产量居世界第一,是我国重要的国民经济基础支柱产业。近20年来,中国流程工业的发展取得了长足的进步。随着过程自动化和信息自动化水平的不断提升,流程工业企业的整体运营显现出人、机、物三元空间不断融合且日趋复杂的发展态势,并且产生出越来越多的数据,对提高流程工业自动化的智能化水平提出了新的挑战。
根据麦肯锡全球研究院的统计报告,典型流程工业产生及存储的数据种类包括视频、图像、文本、数字等等。以轧制过程为例,光学传感器对钢板表面质量的检测,每天一道轧线产生大约1TB检测数据;以制氧系统为例,仅与空分机组、液化设备等相关的传感器就超过200个,每秒产生数据约50万条,每天约375亿条数据。
从一般意义上讲,大数据是指无法在可容忍的时间内用现有IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。虽然流程工业产生的数据在体量上还无法与基因组学、社交网络等其他领域的大数据相比较,但也具有种类多、产生速度快、价值密度低等大数据的典型特征。
这些产生的历史数据蕴含着大量有价值的信息,通过分类、聚类、统计分析、关联分析等数据挖掘和机器学习等方法,对历史数据进行深度分析、发现重要的线索与模式,有助于实现基于知识自动化的优化决策。相关主要工作涉及大数据的表征、感知、存储、语义理解等多个方面。
目前,大数据时代已经来临,大数据已成为各国政府和社会各界关注的新焦点。对于流程工业而言,企业管理者和决策者,以及客户们对于大数据的挖掘和运用,预示着新一波生产力增长和消费者盈余浪潮的到来。虽然,目前关于大数据的研究正在如火如荼地开展,但能为流程工业企业提供大数据平台解决方案的公共参考架构尚未出现。
发明内容
为解决上述技术问题,本发明提供了一种大数据平台的架构设计系统,一种大数据平台的架构设计系统,其特征在于,包括:
数据感知模块,用于对互联网上或局域网内的数据源进行定位和识别;
数据采集模块,用于从感知到的数据源中采集大数据,并将所述大数据按照数据类型进行归类;
转换模块,用于将所述大数据按照转换规则进行转换,得到面向特定领域或主题的数据,所述转换规则是在数据使用功能和数据源之间建立的对应规则。
优选的,所述大数据包括结构化数据、半结构化数据、非结构化数据。
优选的,所述数据采集模块具体用于对所述结构化数据、所述半结构化数据、所述非结构化数据的智能化识别、传输、监控、预处理和管理。
优选的,所述转换模块具体包括处理模块和分析模块;
所述处理模块,用于对所述大数据进行实时判断,判断所述大数据是否需要存储,若不需要存储,则将所述大数据发送给所述分析模块;
所述分析模块,用于从所述大数据中获取代表性数据,并将所述代表性数据转换为所述面向特定领域或主题的数据。
优选的,所述分析模块具体包括:
特征提取模块,用于从所述大数据中发现并提取出关键的数据分布特征,所述关键的数据分布特征包括均值、方差、中位数、众数、四分位差、离散系数、偏态测度和峰度测度统计指标。
采样模块,用于基于所述关键的数据分布特征对所述大数据进行采样分析,在去除噪音数据的同时,保留代表性数据;
规则制定模块,用于根据数据使用功能制定相应的转换规则,并将代表性数据按照转换规则进行转换,得到所述面向特定领域或主题的数据。
优选的,所述转换模块具体还包括:
可视化模块,用于通过可视化手段展示所述面向特定领域或主题的数据。
优选的,所述可视化模块具体用于:利用图形、图像处理、计算机视觉以及用户界面,对所述所述面向特定领域或主题的数据加以直观地解释。
优选的,所述处理模块,还用于若判断出所述大数据需要存储,则将所述大数据存入对应的关系数据库或非关系型NoSQL数据库。
优选的,所述处理模块还包括数据治理模块,用于对所述数据库中的大数据进行读写操作和调用。
优选的,所述系统还包括安全管理模块,用于制定策略来保护敏感数据。
通过本发明的一个或者多个技术方案,本发明具有以下有益效果或者优点:
本发明提供了一种大数据平台的架构设计系统,包括:数据感知模块、数据采集模块和转换模块。数据感知模块,用于对互联网上或局域网内的数据源进行定位和识别;数据采集模块,用于从数据源中采集大数据,并将所述大数据按照数据类型进行归类;转换模块,用于将所述大数据按照转换规则进行转换,得到面向特定领域或主题的数据,所述转换规则是在数据使用功能和数据源之间建立的对应规则。本发明能够从数据源中获得大数据,进而转换为特定领域或主题的数据,能够为流程工业企业提供大数据解决方案的公共参考架构,满足不同的工业企业对大数据的分析处理要求。
进一步的,本发明的系统有助于从权衡企业现有的软硬件资源与大数据驱动的业务需求的视角出发,构造可裁剪和可定制的大数据平台架构,支持通过服务组合和动态配置快速开发个性化的大数据应用服务,并使用数据治理模块确保来自不同数据源的数据的隔离性和安全性。此外,还能为企业提供大数据平台解决方案的公共参考架构,以及多种针对大数据应用服务的可选择、可伸缩的灵活应用模式和指导。
附图说明
图1为本发明实施例中大数据平台的架构设计系统的架构图。
具体实施方式
为了使本申请所属技术领域中的技术人员更清楚地理解本申请,下面结合附图,通过具体实施例对本申请技术方案作详细描述。
目前,在大数据的感知和表征方面,数据库、信息检索、数据挖掘等领域的学者早就开始了互联网上数据的感知、获取、融合和表示等方面的研究,这些技术背后的主要推动力来自于互联网搜索引擎的需求。但总的来说,将这些技术直接用于流程工业大数据处理,在数据处理的规模和获得的数据质量方面还不能令人满意。除了目前流行的图计算技术,张量计算技术日益受到研究者的关注。张量是对向量、矩阵的重要拓展,即向量是一阶张量、矩阵是二阶张量。由于没有破坏数据领域、局部和全局结构,与向量比较,数据的张量形式表达能最大限度的保持原始数据的固有信息。因此,高维大数据可以用张量来表达,而基于张量计算的方法,例如多线性子空间学习,可以从高维大数据中提取有用信息,这些方法已用于图像、纹理、音乐谱等形式的数据表示中。
在大数据的存储方面,大数据存储的形式包括分布式的文件系统、分布式的键值对存储以及分布式数据库存储。当前的研究也集中在这三个方面开展,并依据应用的需求进行相关的优化。Google(谷歌)在2003年公布了其分布式文件系统技术GFS(谷歌文件系统),能够用于存储网页数据。之后,开源社区据此开发了HDFS(Hadoop分布式文件系统),适合部署在廉价的机器上。2010年,Facebook(脸书)推出了专门针对海量小文件的文件系统Haystack(干草堆)来降低磁盘寻道速度,类似的还有淘宝研发的文件系统TFS(淘宝文件系统)。此外,针对MapReduce(映射-规约)技术缺乏类似SQL(结构化查询语言)标准语言的不足,研究人员开发出更高层的语言和系统,如Hadoop的HiveQL(一种类似SQL的语言)和PigLatin(一种编程工具)、Google的Sawzall(军刀锯)、微软的DryadLINQ(大规模数据并行应用的编程环境)以及MRQL(大规模分布式数据分析的查询处理和优化系统)等。
在大数据的内容建模和语义理解方面,工作主要集中在数据的实体、类别和属性的提取与分析等方面。针对大数据内容分析的一个重要进展是多伦多大学的Hinton(辛顿)教授于2006年在《Science》(《科学》)上提出的深度学习(Deep Learning)理论。此后,2010年斯坦福大学的Russakovsky(鲁萨科夫斯基)等提出了利用ImageNet(一个图像数据库)进行属性学习的方法;2011年Parikh(帕里克)等进一步提出了相对属性的学习方法;针对大数据下的张量数据,2013年明尼苏达大学的Sidiropoulos(西迪罗普洛斯)提出了基于压缩感知的核张量计算方法。在语义理解方面,语义网作为语义的核心载体,已经得到了实际应用,利用语义网研究语义理解,也开始得到学术界的关注。例如,柏林自由大学的Christian(克里斯蒂安)等人提出了利用LOD(开放链接数据)的思想在Web(网络)上不同数据源之间创建语义关联,促进异构数据源之间的互操作。
本发明实施例提供了一种大数据平台的架构设计系统,辅助实现更精准、更高效、更科学的管理与决策,动态响应原料、市场、库存及生产设备状况的变化,自动判定产品质量的优劣,从而实施高效、绿色和智能化生产。
该大数据架构设计系统主要包括:数据感知模块11,数据采集模块12,转换模块13。
下面分别介绍各个模块的具体作用。
数据感知模块11,用于对互联网上或局域网内的数据源进行定位和识别。
在本发明实施例中,数据源是存在于互联网上或局域网内的数据的器件或原始媒体。虽然它们通常相互独立,但是不同的数据源往往能够从多个维度汇聚成所需的大数据。因此,对大数据进行采集和处理,首先要定位可能存在的数据源,然后再分析其类别。
一般来说,数据源分为同构和异构两类。其中,异构是指数据来自不同的制造者,且数据格式、存储系统和访问方式等各不相同。此外,从数据获取的方式来看,数据源还可以分为单模态和多模态两种类型。例如,不同传感器对同一事物的描述数据,如相机、X光、红外线对同一个场景中同一个目标照出的图片,就是一种多模态数据。
数据采集模块12,用于从感知到的数据源中采集大数据,并将所述大数据按照数据类型进行归类。
在本发明实施例中,从数据源中采集的大数据可以是结构化数据(存储在数据库里,可以用二维表结构来逻辑表达实现的数据)、半结构化数据(介于完全结构化数据和完全无结构的数据之间的数据,包括网页、邮件、报表等)、非结构化数据(包括所有格式的文档、文本、图片、图像和音频/视频等)。
由于获取的大数据可能具有多种结构和类型,因此将大数据进行归类,可将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的,为后续的处理做准备。
以流程企业结构化数据为例,着重将PLC(Programmable Logic Controller,可编程逻辑控制器)产生的数据、DCS(Distributed Control System,分布式控制系统)产生的数据、PCS(Personal Communications Service,个人通讯服务)产生的数据、MES(Manufacturing Execution System,制造执行系统)产生的数据、EMS(EnvironmentalManagement System,环境管理系统)产生的数据、ERP(Enterprise Resource Planning,企业资源计划或称企业资源规划)产生的数据、DSS(Decision Support System,决策支持系统)产生的数据,以及市场信息、电子商务交易信息和产品工序制造成本等信息作为大数据。当然,除了流程企业结构化数据之外,大数据还可以是互联网上的数据(例如我们日常生活或与数字服务交互的副产品,其包括搜索、新闻、博客、微博等社交网、移动办公、监控数据、遥测数据等等)、第三方数据等等。
在对大数据进行归类时,便依照“市场、客户、制造过程监控、设备状况和管理者的分析、归纳和展示、数据的实效性、制造过程一贯性和用户对数据的使用频次”进行归类。
而在具体的采集过程中,数据采集模块12可实现对大数据(包括对结构化数据、半结构化数据、非结构化数据)的智能化识别、传输、监控、预处理和管理。
从技术上来说,数据采集模块12是以PLC、DCS、PCS作为基础支撑层,提供大数据服务平台所需的虚拟服务器,为大数据的数据库及物联网络资源等提供基础支撑环境。
具体来说,数据采集模块12包括数据传感系统(将多个现场模拟信号逐个采样再量化成数字信号)、网络通信系统(通过接口电路完成检测单元到计算机系统的数据传递)、传感适配系统(接口转换装置)、智能识别系统(以数学方法与计算机为工具,对各种数据进行处理、分类和理解)及软硬件资源接入系统。实现对结构化数据、半结构化数据、非结构化数据的智能化识别、传输、监控、预处理和管理等。
转换模块13,用于将所述大数据按照转换规则进行转换,得到面向特定领域或主题的数据,所述转换规则是在数据使用功能和数据源之间建立的对应规则。
具体来说,转换模块13包括处理模块14、分析模块15、可视化模块16三个部分。
从各种数据源获取的大数据,将被数据采集模块12发送到处理模块14,由处理模块14处理。处理模块14,需要能够选择是否存储大数据以及在何处存储传入的大数据,同时它必须能够确定这些大数据在存储前是否应改动,或者是否可直接发送到分析模块15。为了实现后续的分析功能,处理模块14可拥有简单的转换逻辑或复杂的统计算法来转换源数据。
在存储时,可建立相应的数据库,并利用系统中设计的数据治理模块20对数据库中的大数据进行读写操作和调用,以解决复杂结构化数据、半结构化数据和非结构化大数据管理与处理。
对于要事先存储的大数据,一般采用分布式数据存储方式,并依托数据基础设施提供多个数据存储选项,比如分布式文件存储、云存储、结构化数据库、非关系型NoSQL等。利用分布式文件系统(DFS)能有效优化存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术,实效大数据移动、备份、复制,以及数据可视化。
数据治理模块20,涉及到定义指南来帮助企业制定有关数据管理的正确决策,有助于处理企业内部或从外部来源传入的数据的复杂性、量和种类,因为在将大数据进行处理、存储、分析和清除或归档时,需要强有力的指南和流程来监视和保护数据。除了常规的数据治理考虑因素之外,大数据治理组件还会考虑其他因素,包括管理各种格式的大量数据、持续训练和管理所需的统计模型、为外部数据设置有关其保留和使用的策略和合规性制度、定义数据归档和清除策略、创建如何跨各种系统复制数据的策略,以及设置数据加密策略。
大数据的治理是保证大数据分析的基础,主要任务及有利条件包括:
——数据管理。信息的基础建设,其中的关键技术包括虚拟化、云计算、移动设备以及应用程序,这些IT基础武钢早在若干年前就开始规划建设、运营。
——完整认知数据。了解企业关注的信息并明确并不是所有的信息都是对等的。比如这些数据有多重要?甚至这些数据是属于个人还是商业信息?必须全面了解并且将信息分门别类以发掘它真实的价值。目前,武钢质量一贯管理、营销合同盈亏分析、产品检化验实验室、钢材国际贸易销售等若干决策支持(BI)系统已运行多年,在大数据方面积累了相关的应用条件和数据处理实践经验。
——提高效率。使用重复数据删除和归档技术来保护信息,而少用信息存储,只存储那些企业真正需要的信息。武钢定期开展数据清理和数据优化工作已形成常态化。
——制定规范准则。为信息制定不变的准则很重要,无论信息在何处,是否在实体环境、虚拟环境或云环境如何,都要强制执行这个准则。
——保持敏捷。为将来的信息做打算,需要通过构建灵活的基础设施,以支持信息持续增长。
因此,处理模块14的主要作用是对大数据进行实时判断,判断大数据是否需要存储,若需要存储,则将所述大数据存入对应的关系数据库或非关系型NoSQL数据库。数据库是由处理模块14指定。而在何处存储传入的大数据也是由处理模块14选择。
分析模块15,用于从所述大数据中获取代表性数据,并将所述代表性数据转换为所述面向特定领域或主题的数据。
分析模块15可接收处理模块14发送的大数据或者各个数据库中存储的大数据。在某些情况下,分析模块15也可以直接从值得信赖的数据源访问数据。分析模块15的主要目的是制定如何管理以下任务的决策,包括:生成想要的分析功能、从大数据中获取对未来业务发展的洞察;识别并找到所需的实体;定位可提供这些实体的数据的数据源;理解执行分析需要哪些算法和工具。其中,分析模块15为上述的实体识别任务提供支持,根据所处的场景和上下文(context),使用包括实体鉴别、模型管理(负责维护各种统计模型,验证和检验这些模型的有效性,并通过持续训练模型来提高准确性)和分析算法来处理和执行分析任务,并具有支持并行处理的各种不同的工作流、算法和工具。
例如,大数据的使用功能主要体现在:
——早期预警:早期检测企业人员使用数字设备和服务中的异常可以在时间上快速响应危机;
——实时感知:大数据可以描绘一幅关于现实情况的很细粒度的且当前的表述,它有助于制定行动计划和政策;
——实时反馈:大数据具有实时监测居民的能力,使其可用来了解哪里政策和行动计划失效并作出必要的调整。
在确定以上三个使用功能之后,需要建立这些功能与大数据之间不同类型的转换规则,主要包括回归、分类、排序和推荐。其中,分类用于对数据对象类别(非数值型)的预测,回归用于对数据对象数值的预测,排序用于对数据对象之间的相对位置进行预测,推荐用于对TOP K(排名靠前的K)个数据对象进行预测。
下面具体介绍分析模块15的具体作用。
分析模块15具体包括:特征提取模块17,采样模块18,规则制定模块19。
特征提取模块17,用于从大数据中发现并提取出关键的数据分布特征,关键的数据分布特征包括均值、方差、中位数、众数、四分位差、离散系数、偏态测度和峰度测度统计指标。
采样模块18,用于基于关键的数据分布特征对大数据进行采样,在去除噪音数据的同时,保留代表性数据。
规则制定模块19,用于根据数据使用功能制定相应的转换规则,并将代表性数据按照转换规则进行转换,得到面向特定领域或主题的数据。
下面进行具体的分析。
对于大数据来说,并不全是有价值的,有些大数据并不是我们所关心的内容,而另一些大数据则是完全错误的干扰项,因此要对大数据通过过滤“去噪”从而提取出有效数据。由于是采样分析,因此相当于“近似计算”,需要合理采样以保证大数据语义内容理解的计算结果价值的近似程度。
采样分析的主要目的,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
采样分析涉及的技术方法很多,如下所示。
根据采样任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等。
根据采样对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。
根据采样方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。
机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP(联机分析处理)方法,另外还有面向属性的归纳方法。
大数据分析为流程企业从多种数据源中挖掘、分析铺平了道路,找出对未来企业战略具有影响的因素,能够大大提升效率并降低成本。
例如传统分析对已知的数据范围中好理解的数据进行分析,并被清洗过、符合业务的元数据。而大数据最大的优点是针对传统手段捕捉到的数据之外的非结构化数据。这意味着不能保证输入的数据是完整的,清洗过程没有任何的错误。例如,分析过程,传统分析是定向批处理,每天晚上等待提取、转换和加载(ETL),以及转换工作的完成。大数据分析是利用对数据有意义的软件支持,完成数据的实时分析。
大数据分析技术可以改进已有数据挖掘和机器学习技术,开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
可视化模块16,用于通过可视化手段展示所述面向特定领域或主题的数据。
可视化的过程:利用图形、图像处理、计算机视觉以及用户界面,对获得的面向特定领域或主题的数据加以直观地解释,便于终端用户理解。
例如,对于结构化数据而言,可以将数据库中每一个数据项作为单个的图形元素表示,整个数据集就构成一幅数据图像,从而呈现出其分布特征;此外,也可以将结构化数据的各个属性值以多维数据的形式表示,方便从不同的维度观察,从而对之进行更深入的观察和分析。展现的形式包括柱形图、折线图、饼图、条形图、面积图、散点图、股价图、曲面图、圆环图、气泡图和雷达图。
另外,系统还包括安全管理模块,用于制定相关的策略来保护敏感数据,因为从外部机构和各种程序获取的数据可能包含敏感数据,比如用户的联系信息或产品定价信息等,因而必须进行相应的处理来保证数据的安全性和隐私不被泄露。通常考虑以下数据访问策略,包括数据可用性、数据关键性、数据真实性、数据共享和发布机制、数据存储和保留机制(能否存储外部数据,如果能够存储数据,数据能存储多长时间,可存储何种类型的数据等等)、数据提供程序约束(政策、技术和地区),以及社交媒体使用条款。
将前述的各种架构构造块(即各种模块)组合成架构解决方案。
例如,需要在技术上支撑“一条龙”低成本制造。根据市场的动态变化以及系统提供对市场的预测和分析,建立了产销研一体化联动平台,实时监控从原料采购到铁钢材制造“一条龙”的低成本制造关键工艺技术和信息反馈,使生产过程成本精细化管控,将制造过程维持在高水平的连续化生产上。
支持大数据的IT基础设施要支撑数据的整合和集中、数据的扩展和伸缩、数据的管理与维护、数据的安全可控性以及如何降低总体拥有成本。
所述的架构解决方案的保存格式为xml(可扩展置标语言)。
通过“一种大数据平台的架构设计系统”的发明,建立大数据平台可以基于武钢在钢铁主业的全流程信息系统多年运维管理和相关产业云平台的建设应用,对武汉地区的影响可以从相关产业信息化来体现,例如,武钢相关产业中的氧气公司于石化工业是同行业;武钢重工集团属于装备制造行业;武钢江北公司与机械加工相似;武钢物流公司包括了整个社会物流全部业务,尤其是长江水上运输业务;武钢钢材剪配公司与汽车行业紧密对接,武钢国际贸易与社会其它贸易公司业务相同,武钢现代城市服务(后勤)集团可以涵盖社区服务和社会服务;武钢工程技术集团代表者高新技术企业,等等。在武钢这样的信息化企业开展大数据研究,既有管理优势、应用优势,也有多年的IT技术积淀,无疑将会给企业和社会带来共赢。
通过本发明的一个或者多个实施例,本发明具有以下有益效果或者优点:
本发明提供了一种大数据平台的架构设计系统,包括:数据感知模块、数据采集模块和转换模块。数据感知模块,用于对互联网上或局域网内的数据源进行定位和识别;数据采集模块,用于从数据源中采集大数据,并将所述大数据按照数据类型进行归类;转换模块,用于将所述大数据按照转换规则进行转换,得到面向特定领域或主题的数据,所述转换规则是在数据使用功能和数据源之间建立的对应规则。本发明能够从数据源中获得大数据,进而转换为特定领域或主题的数据,能够为流程工业企业提供大数据解决方案的公共参考架构,满足不同的工业企业对大数据的分析处理要求。
尽管已描述了本申请的优选实施例,但本领域内的普通技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种大数据平台的架构设计系统,其特征在于,所述大数据包括:PLC产生的数据、DCS分布式控制系统产生的数据、PCS个人通讯服务产生的数据、MES制造执行系统产生的数据、EMS环境管理系统产生的数据、ERP企业资源计划或称企业资源规划产生的数据、DSS决策支持系统产生的数据、市场信息、电子商务交易信息、产品工序制造成本、互联网上的数据第三方数据;所述系统包括:
数据感知模块,用于对互联网上或局域网内的数据源进行定位和识别;
数据采集模块,用于从感知到的数据源中采集大数据,并将所述大数据按照数据类型进行归类;
转换模块,用于将所述大数据按照转换规则进行转换,得到面向特定领域或主题的数据,所述转换规则是在数据使用功能和数据源之间建立的对应规则,其中,所述转换模块具体包括处理模块和分析模块;所述分析模块具体包括:特征提取模块,用于从所述大数据中发现并提取出关键的数据分布特征,所述关键的数据分布特征包括均值、方差、中位数、众数、四分位差、离散系数、偏态测度和峰度测度统计指标;采样模块,用于基于所述关键的数据分布特征对所述大数据进行采样分析,在去除噪音数据的同时,保留代表性数据;规则制定模块,用于根据数据使用功能制定相应的转换规则,并将代表性数据按照转换规则进行转换,得到所述面向特定领域或主题的数据;其中,采样任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现、采样对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;
安全管理模块,用于制定策略来保护敏感数据;所述策略包括:数据可用性、数据关键性、数据真实性、数据共享和发布机制、数据存储和保留机制、数据提供程序约束以及社交媒体使用条款。
2.如权利要求1所述的系统,其特征在于,所述大数据包括结构化数据、半结构化数据、非结构化数据。
3.如权利要求2所述的系统,其特征在于,所述数据采集模块具体用于对所述结构化数据、所述半结构化数据、所述非结构化数据的智能化识别、传输、监控、预处理和管理。
4.如权利要求1所述的系统,其特征在于,所述转换模块具体包括处理模块和分析模块;
所述处理模块,用于对所述大数据进行实时判断,判断所述大数据是否需要存储,若不需要存储,则将所述大数据发送给所述分析模块;
所述分析模块,用于从所述大数据中获取代表性数据,并将所述代表性数据转换为所述面向特定领域或主题的数据。
5.如权利要求1所述的系统,其特征在于,所述转换模块具体还包括:
可视化模块,用于通过可视化手段展示所述面向特定领域或主题的数据。
6.如权利要求5所述的系统,其特征在于,所述可视化模块具体用于:利用图形、图像处理、计算机视觉以及用户界面,对所述所述面向特定领域或主题的数据加以直观地解释。
7.如权利要求4所述的系统,其特征在于,所述处理模块,还用于若判断出所述大数据需要存储,则将所述大数据存入对应的关系数据库或非关系型NoSQL数据库。
8.如权利要求7所述的系统,其特征在于,所述处理模块还包括数据治理模块,用于对所述数据库中的大数据进行读写操作和调用。
CN201610741464.7A 2016-08-26 2016-08-26 一种大数据平台的架构设计系统 Active CN106407278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610741464.7A CN106407278B (zh) 2016-08-26 2016-08-26 一种大数据平台的架构设计系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610741464.7A CN106407278B (zh) 2016-08-26 2016-08-26 一种大数据平台的架构设计系统

Publications (2)

Publication Number Publication Date
CN106407278A CN106407278A (zh) 2017-02-15
CN106407278B true CN106407278B (zh) 2020-03-17

Family

ID=58003492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610741464.7A Active CN106407278B (zh) 2016-08-26 2016-08-26 一种大数据平台的架构设计系统

Country Status (1)

Country Link
CN (1) CN106407278B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107340460A (zh) * 2017-05-11 2017-11-10 国家电网公司 一种状态检测数据特征参数提取及规范化转换的方法
CN107885965B (zh) * 2017-09-26 2020-06-05 深圳市宇数科技有限公司 一种数据探索发现方法、系统、电子设备及存储介质
CN111614775B (zh) * 2017-11-10 2021-08-10 青岛海尔工业智能研究院有限公司 工业互联网云平台
CN108416524A (zh) * 2018-03-13 2018-08-17 泰华智慧产业集团股份有限公司 基于一张图通用框架的产业规划精细化解读方法
CN110309214B (zh) * 2018-04-10 2023-06-23 腾讯科技(深圳)有限公司 一种指令执行方法及其设备、存储介质、服务器
CN108877948A (zh) * 2018-06-05 2018-11-23 深圳先进技术研究院 多模态数据处理方法及系统
CN108769255A (zh) * 2018-06-26 2018-11-06 铭阳数通科技(西安)有限公司 企业数据的采集和治理方法
CN109190360A (zh) * 2018-07-12 2019-01-11 上海常仁信息科技有限公司 关联机器人类别的机器人身份证系统
CN109558966B (zh) * 2018-10-28 2022-05-17 西南电子技术研究所(中国电子科技集团公司第十研究所) 智能判证预测事件发生的处理系统
CN109711479A (zh) * 2018-12-30 2019-05-03 中国电子科技集团公司信息科学研究院 一种数据处理与融合方法及其应用
CN110320842B (zh) * 2019-07-16 2021-09-07 东北大学 用于氧化铝生产过程的多尺度数据采集与处理装置及方法
CN110751371B (zh) * 2019-09-20 2022-06-07 苏宁云计算有限公司 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质
CN111242669A (zh) * 2019-12-17 2020-06-05 武汉匠楚科技有限公司 一种定制化健身课程营销系统及方法
CN111708919B (zh) * 2020-05-28 2021-07-30 北京赛博云睿智能科技有限公司 一种大数据处理方法及系统
CN111751788A (zh) * 2020-06-29 2020-10-09 成都数之联科技有限公司 一种大数据智能探测设备辅助增强系统
CN115934492A (zh) * 2023-01-09 2023-04-07 中兴系统技术有限公司 一种基于智能运维平台大数据的数据采集方法
CN116993504B (zh) * 2023-09-25 2023-12-29 湖南华菱电子商务有限公司 一种钢材交易信息服务平台及交易数据处理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268329A (zh) * 2013-05-04 2013-08-28 四川虹欧显示器件有限公司 等离子显示屏制造过程数据挖掘系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677710A (zh) * 2015-12-28 2016-06-15 曙光信息产业(北京)有限公司 大数据的处理方法和系统
CN105868395A (zh) * 2016-04-19 2016-08-17 武汉邮电科学研究院 基于事件驱动的智慧城市大数据体系及处理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268329A (zh) * 2013-05-04 2013-08-28 四川虹欧显示器件有限公司 等离子显示屏制造过程数据挖掘系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于大数据的制造运行监测与分析平台研究";王淑芬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20141015(第10期);正文第6-32页 *

Also Published As

Publication number Publication date
CN106407278A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN106407278B (zh) 一种大数据平台的架构设计系统
Wang et al. Industrial big data analytics: challenges, methodologies, and applications
CN109272155B (zh) 一种基于大数据的企业行为分析系统
Phillips-Wren et al. Business analytics in the context of big data: A roadmap for research
Wang et al. Beyond a technical perspective: understanding big data capabilities in health care
Furht et al. Introduction to big data
US7565335B2 (en) Transform for outlier detection in extract, transfer, load environment
Patwardhan et al. A survey on predictive maintenance through big data
US11620453B2 (en) System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations
Jayagopal et al. Data management and big data analytics: Data management in digital economy
Yu Chung Wang et al. Enterprise systems, emerging technologies, and the data-driven knowledge organisation
Rouhani et al. Big data platforms: in the lens of selection and evaluation approach
Islam et al. A framework for effective big data analytics for decision support systems
Gadu et al. A knowledge management framework using business intelligence solutions
Kasemsap Mastering big data in the digital age
Qiao et al. Constructing a data warehouse based decision support platform for China tourism industry
Beheshti et al. Ai-enabled processes: The age of artificial intelligence and big data
Hodinka et al. Business intelligence in Environmental reporting powered by XBRL
CN113868322B (zh) 一种语义结构解析方法、装置、设备及虚拟化系统、介质
Xiang A multiple criteria decision-making method for enterprise supply chain finance cooperative systems
Kidambi Raju et al. Enhanced Dual Convolutional Neural Network Model Using Explainable Artificial Intelligence of Fault Prioritization for Industrial 4.0
Mahmood et al. Recent advances in big data: features, classification, analytics, research challenges, and future trends
Pradeep Kumar et al. Fog Data Analytics: Systematic Computational Classification and Procedural Paradigm
Sneha et al. Big Data Analysis and Machine Learning for Green Computing: Concepts and Applications
Lemzin Streaming Data Processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180417

Address after: 430084, No. 4, steel Valley, Worker Village, Qingshan District, Hubei, Wuhan

Applicant after: Wuhan Steel Engineering Technology Group Communication Co., Ltd.

Address before: 430000 No. 10 industrial road two, Qingshan District, Wuhan, Hubei.

Applicant before: Wuhan Iron & Steel Engineering Technology Group Co., Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 430084 floor 15-22, building 4, Wuhan International Steel Logistics Service Center (Ganggu), Qingshan Town, Qingshan District, Wuhan City, Hubei Province

Applicant after: Baoxin software (Wuhan) Co., Ltd

Address before: 430084, No. 4, steel Valley, Worker Village, Qingshan District, Hubei, Wuhan

Applicant before: Wuhan Steel Engineering Technology Group Communication Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant